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Prefațţă la prima ediție 


Anti "80 cor fi probabil decada calculatorului paralel, iar această 
carie are tocmai scopul de a realiza o introducere în acest domeniu. 
Deși, începînd cu anii '50, mulie calculatoare au înglotai elemente de operare 
paralelă sau concurentă, abia prin 1974—5 au apărut primele calculatoare 
proiectate special pentru. utilizarea paralelismului cu scopul prelucrării 
eficiente a vectorilor sau masitelor de numere. Aceste calculatoare fie execu- 
tau în paralel diversele subfuneţii ale unei operaţii aritmetice în același 
mod cu o linie de asamblare inđusirială (calculatoare pipeline ca CDC STAR 
si TIASC), sau multiphcind unități aritmetice complete (masive de proce- 
soare ca ILLIAC IV). Aceste proiecte timpurii au pus numeroase probleme, 
dar prin 1980 mai mulţi producăteri importanti ofereau calculatoare paralele 
pe bază comercială, deosebite de proiectele de cercetare anterioare. Princi- 
palele exemple sînt CRAY-1 (prima instalare în 1976) şi CDC CYBER 
205, calculatoare pipeline, 1CL DAP şi Burroughs BSP, masite de 
procesoare. Din păcale, de cînd am elaborat acest material, Burroughs a 
avut probleme la producerea calculatorului BSP și, deşi s-a construit o 
mașină prototip, Burroughs a alandenat acest proiect. Totuşi, acesta rămîne 
un model foarte. interesant iar atandenarea sa furnizează mai multe perspec- 
tire în interiorul domeniului. Calculatoarele pipeline devin populare, de 
asemenea, ca procesoare ce se cuplează la minicalculatoare (pentru prelucrarea 
semnalelor sau analiza datelor seismice) sau la microcalculatoare. Ca eremple 
dăm FPS AP-120B, FIS-164, Data General AP|150 și IBM 8838. 

Paralelismul a fost introdus deoarece numai creșterea vitezei circuiielor 
nu poate produce performanta cerută. Accasta apare evidenti în studiile de 
proiect elaborate peniru propusa Facilitate de Simulare Acronaulică Natto- 
nală (NASF) a NASA de la Ames. Se doreşte un calculaior capabil de 
a execula 10 operajii în virgulă mobilă ze secundă. Propunerea firmei CDC 
peniru această maşină se referă la patru unități pipeline de mare perfor- 
manță, în timp ce proiectul Eurrcughs este un masir de 512 unităii ariime- 
tice identice. Progresele tehnologiei de integrare pe scară foarte largă (V LSI) 
asigură posibiliiatea realizării unor masire foarie mari de elemente ziroct- 
soare (PE). ICL DAP (4056 PE) şi Gocdycar Aerospace MPP sînt exem- 
ple timpurii de masire de procescare ce vor fi, probabil, dezvoltate în 
cursul acestor ant peniru a capleata arantajele tehnologiei VLSI. Se poate 
pretinde că proiectele de mai sus interesează numai marile laboratoafe de 
cercetare ştiinţifică și că nu vor avea un impact asupra maşei de utilizatori 
de calculatoare. Totuși, experienta arată că progresele înregistrate de arhitec- 
tura calculatoarelor produse la început pentru piata ştiinţifică au devenit 
mai tirziu parie a calculatoarelor de uz general. 
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De aceea, se pare că un grad mai mare de paralelism (datorită cererii 
unei performanțe mai mari, decit pol asigura circuitele electronice), împreună 
cu tehnologia necesară implementării acestuia (VLSI) vor face probabil din 
paralelismul arhitecturii calculatoarelor un domeniu de mare interes în 
cursul anilor '80. Scopul acestei cărți este de a explica principiile și clasifica- 
rea atit a calculatoarelor pipeline cît şi a masivelor, să prezinte cum au fost 
implementate aceste principii în cadrul unor calculatoare de succes (CRAY-1, 
CY BER 205, PPS AP-120B, ICL DAP şi Burroughs BSP) şi să compare 
performanțele diverselor sisteme pentru un număr de aplicații importante 
(operaţii cu matrici, FFT, rezolvarea ecuaţiei Poisson). Apariţia arhitecturi- 
lor înalt paralele pune, de asemenea, problema proiectării unor algoritmi 
numerici eficienți, ca și a unor limbaje în care să se exprime acești algo- 
ritmi. Considerăm că algoritmii şi limbajele sînt aspecte ale paralelismul 
la fel de importante cu arhitectura, de aceea le dedicăm capitole separate. 

O caracteristică a tratării noastre care poate fi considerată originală 
este conceptul unei descrieri cu doi parametri a performanţei calculatoarelor : 
în plus față de obismuita performanță maximă exprimată în operații în 
virgulă mobilă pe secundă T'o, propunem lungimea performanței jumătate 
niz, lungimea vectorului necesar pentru a atinge jumătate din performanta 
maximă. Această variabilă poate fi de asemenea interpretată ca măsurînd 
cantitatea de paralelism a unui calculator şi variază de lu nyp = 0 pentru 
calculatoarele seriale la n= co pentru un masiv infinit de procesoare. 
În acest mod, al doilea parametru pbale fi bine folosit pentru clasificarea 
arhitechurilor paralele, conform acestei măsuri cantitative. Deci, răspunde 
întrebării: ct de paralel esie calculatorul meu? De egală importanță este 
faptul că na determină cantitativ și alegerea plqoritmului cel mai eficient. 
Deci, răspunde și la întrebarea : care este cel mai bun algoritm pentru calcula- 
torul meu paralel? De asemenea, propunem o notatie în stil algebric, care 
permite definirea arhitecturii unui calculator pe o linie, eliminând astfel 
necesitatea umor descrieri prolixe și ajutind la clasificarea sistemelor prin 
posibilitatea descrierii cu o singură formulă. 

Cea mai mare parte a acestei cărți a fost predată ca un curs la Faculta- 
tea de știința calculatoarelor a Universităţii Reading, denumit „Arhitectura 
calculatoarelor avansate”. Acest curs a ajuns la 40 de lecţii în ultimii 5 
ani, iar lipsa unui text adecvat a motivat scrierea volumului de faţă. Cursul 
esie optional în anul III, dar poate fi folosit și ca specializare pentru. anii 
finali (nivel MSc), sau pentru pregătirea unei teze de doctorat în domeniul 
calculatoarelor paralele. 

Multe persoane au ajutat, prin discuții și observatii, la pregătirea acestui 
manuscris. Printre ei dorim să-i menţionăm pe colegii de la Universitatea 
Reading : în special Jim Craigie, John Graham, Roger Loader, John Ogden, 
John Roberts și Shirley Williams ; și Henry Kemhadjian de la Universitatea 
Southampton. Dr. Ewan Page, vice-cancelar al Universităţii Reading și 
editorul seriei, Prof. Mike Rogers de la Universitatea Bristol, au propus 
îmbunătăţiri ale manuscrisului. De asemenea, am primit informatii şi foto- 
grafii de la reprezentantii unor firme, printre care dorim să le mulțumim 
lui Pete Flanders, David Hunt și Stewart Reddaway de la ICL Research 
and Advanced Development Centre, Slecenage, și lui John Smallbone de la 
ICL, Euston; Prof. Dennis Parkinson de la IOL şi Queen Mary College, 
Universitatea din Londra; Stuart Drayton, Mick Dungworth și Jeff Taylor 
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de la CRAY Research, Bracknell; David Barhkai și Nigel Payne de la Con- 
trol Data Corporation (UK), și Patricia Conway, Nei Lincoln și Chuck 
Purcell de la CDC Minneapolis; J.H. Austin de la Burroughs, Paoli și 
G. Tillot de la Burroughs, Londra; C.T. Mickelson de la Goodyear Aerospace, 
Akron; şi John Harte, David Head și Steve Markham de la Floating Point 
Systems, Bracknell. Domnișoara Jill Dickinson (acum doamna Contla), 
care a tipărit textul, a corectat multe erori. 

Am dedicat această carte proiectanților de calculatoare, deoarece fără 
inspiratia și devotamentul lor nu am fi avut posibilitatea studiului, clasificării 
și utilizării unei varietăți atît de interesante de calculatoare. Inevitabil, pro- 
sectarea unui calculator este o muncă de echipă, dar dorim să exprimăm în 
mod special considerația noastră pentru Seymour Cray, Neil Lincoln, 
George O’ Leary și Stewart Reddauay, principalii proiectanți ai calculatoarelor 
selectate pentru a fi analizate în prezentul volum. 


R. W- HOCKNEY, C. R. JESSHOPE 
| 1981 


Prefaţă la ediția a I-a 


În cei șapte ani care au trecut de la publicarea Calculatoarelor paralele, 
au intervenit suficiente schimbări care să justifice o a doua ediție. În afara 
evoluției arhitecturilor descrise în prima ediție (de exemplu, CYBER 205 
la ETAY, şi ORAY-1 la CRAY X-MP şi CRAY-2), au apărut multe 
calculatoare noi cu fluxuri multiple de instructiuni (MIND) experimentale, 
iar unele chiar comercializate (de exemplu, Intel 4PSO, Sequent Balance, 
Alliant FXJ8). În plus, cipurile microprocesor (transputerul INMOS), 
disponibile acum, sînt proiectate pentru a fi conectate în rețele mari, iar 
multe sisteme se proiectează pe baza lor. 

Deși am păstrat structura primei ediții, am inclus aceste dezvoltări prin 
extinderea Introducerii (prin includerea extensiilor necesare la notația arhi- 
tecturală algebrică si clasificarea proiectelor), -si prin descrierea mai detailată 
a unor noi arhitecturi în capitolele următoare. În capitolul dedicat caleula- 
toarelor vectoriale pipeline am inclus deserverea caleulatoarelor vectoriale 
japoneze de succes (Fujitsu VP, Hitachi 8810 şi NEC 5X2), ca și noua 
generație de calculatoare vectoriale multiple din Statele Unite (0CRAY-2 gi 
ETAY), În capitolul privind mmultiprocesoarele şi masivele de procesoare 
am inclus Denelcor HEP, primul calculator MIMD comercializat, și Con- 
neclton Machine. l 

Deşi HEP nu mai este produs, considerăm că arhitectura sa, ce folosește 
partajarea unui singur pipeline pentru instrucțiuni de către multiple fluxuri 
de instructiuni, este suficient de originală și interesantă pentru a-i justifica 
includerea; Connection Machine reprezintă soluția opusă, a conectării 
unui număr foarte mare (aprozimativ 65000) de procesoare simple într-o 
rejea. i 

Transputerul INMOS esie primul cip comercializat care a fost conce- 
put ca bloc de construcție pentru calculatoarele paralele; arhitectura sa și 
modalitățile de utilizare sînt tratate în capitolul 3. Aproximativ o duzină 
de calculatoare vindute în momeniul de fată folosesc mai multe transputere 
și probabil există mai multe mii de companii din întreaga lume care stu- 
diază posibilitățile acestui. cip, fie ca produs potential, fie ca o compo- 
nentă a unui sistem paralel. Interesul nu esie surprinzător, dacă amintim că 
citeva zeci de transputere T800 sînt capabile să atingă performanţele calcula- 
torului CORA Y-1, prezentat în prima ediție a acestei cărți. Producerea acestui 
cip este simptomaiică pentru dezvoltările ce au intervenit în ultimii 5—10 
ani în tehnologia semiconduclorilor ; densitatea porților s-a dublat la fiecare 
doi ani, iar frecvența ceasului a crescut cu 50%, în aceeasi perioadă. Nu 
este nici un semn că acest progres se va reduce semnificativ. Aceste evolutii, 
împreună cu implicațiile lor, sînt tratate în capitolul 6. 
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De la prima ediție, progresele în demeniul limbajelor paralele sînt re- 
prezentate de includerea standardului FORTRAN SĂ pentru eaprimarea 
calculelor vectortale, ce ta fi disponibil pe calculatoarele vectoriale, CMLISP, 
un limbaj de programare pentru Connection Machine, şi OCCAM, limba- 
jul de programare peniru iransputerul INMOS. | 

Apariţia calculatoarelor MIMD a impus definirea parametrilor de 
performanţă care iau în considerare costul sinecvonizării multiplelor fluxuri 
de instructiuni, ca şi costul comunicatiilor între procesoare. La definirea para- 
metrilor (51 pentru sincronizare, fij pentru ecmunicaţie) am urmat filosofia 
parametrilor (To, Ni) propuși în prima editie pentru caracterizarea compor- 
tării unui pipeline vectorial, şi care sînt acum cunoscuţi și adoptați pe 
scară largă. Cu alte cuvinte, am ales parameirii care pot fi legaţi de anumite 
proprietăți ale programului utilizatorului (de exemplu, cantitatea de operatii 
aritmetice într-un bloc de cod paralelizai). Aceasta conduce la dezvoltarea 
metodelor de analiză ai algoritmilor ce se bazeazăpe acești parametri, pre- 
zeniate în capitolul 3. 

Ar lua prea mult spațiu să mulţumim tuturor celor care ne-au ajutat 
cu înformalii și fotografii pentru noua ediție, dar în mod special am dori 
să le mulțumim lui: David Dent (ECMWF); Paul Elstone, John Larson 
şi Wiliam White (Cray Reserarch); Shaun Powell, P.J. Elms, Alain 
Hochedez gi Jean-Claude Lignac (CDC); Meg Saline şi Cliff Arnold (ETA 
Systems); David Snelling (ex Denelcor) gi Ian Curington (ex FPS); David 
May (IN MOS) ; Geoff Manning (A MT Ltd) ; Leon Bentley, Andrew Rushton 
Jimmy Stewart, Adriano Cruz, Russel O'Gcrman, Gadge Panesar, Ernest 
Ng și Charles Askew (Universitatea Southampton). 

O carte de calculatoare poate să devină cu ușurință o descriere plictisitoare 
a unui sir fără sfîrşit de arhitecturi diferite, şi s-ar putea ca unii cititori 
să considere că am căzut în această capcană. De aceea, ca gila prima ediție, 
am încercat să facem prezentarea. într-o perspectită istorică, într-un cadru 
teoretic al unei notații, clasificări şi teorii a performanţei care, sperăm not, 
se vor aplica chiar cînd calculatoarele descrise vor deveni istorie trecută. 
Sperăm că în acest mod noua ediţie ra rămîne la fel de populară ca un text 
de curs, cum a fost prima ediţie, ce prezenta principii şi metodologii dar şi 
fapte depăștie între timp. Cu toate acestea, am prezentat multe din calcula- 
toarele, limbajele gi algoritmii care vor fi folosite în următorii 5 ani de către 
utilizatorii de calculatoare, specialişti în domeniul calculatoarelor, sau în 
diverse discipline (de exemplu, fizica, chimia, biologia și inginerie). De 
aceea, ne așieptăm ca această nouă édijie să fie la fel de folositoare unor grupe 
diferite de oameni care doresc să atingă performanţele cele mai bune cu nume- 
roasele și rarialele arhitecturi de calculatoare paralele disponibile. - 


R. W IIOCKNEY 
C. R. JESSHOPE 


(Universitățile Reading şi Southampton, augusi 1987 ) 
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1. 


INTRODUCERE 


Principala inovație în proiectarea calculatoarelor comerciale a anilor 
80 este introducerea paralelismului pe scară largă. În acest capitol intro- 
ductiv vom prezenta istoria acestui concept ($ 1.1), vom expune principiile 
utilizate pentru clasificarea calculatoarelor paralele ($1.2) și vom caracte- 
riza performanțele lor relative (§ 1.3). Pentru utilizarea eficientă a calcula- 
toarelor paralele, programatorul trebuie să cunoască organizarea sistemu- 
lui definită, astfel, ca arhitectura sa : ne referim la numărul și tipul pro- 
cesoarelor, modulele de memorie și canalele de I/E și cum sint acestea 
interconectate şi comandate. Capitolele 2 și 3 descriu arhitectura a două 
clase principale de calculatoare paralele, calculatoarele pipeline şi, respectiv, 
masivele de procesoare (array). Ar fi imposibil să descriem toate sistemele 
din această categorie ; îu schimb, am selectat principalele calculatoare co- 
merciale, cu un număr semnificativ de vinzări, și care diferă suficient 
între ele pentru a ilustra soluții diferite la aceeași problemă. În capitolul 
2 sint descrise calculatoarele pipeline CRAY X-MP, CRAY-2, CYBER 
205, ETAL şi, FPS 164/MAX. In capitolul 3 sint descrise masivele de 
procesoare şi sistemele multiprocesor ICL DAP, Burroughs BSP, Denelcor 
HEP şi Connection Machine. În capitolul 6, unde discutăm dezvoltările 
viitoare, comparăm caracteristicile tehnologiilor bipolară şi MOS, examinăm 
aspectele tehnologice ridicate de proiectarea calculatoarelor paralel şi 
analizăm potenţialul oferit de integrarea wafer-scale. 

Apariţia tehnologiilor de integrare pe scară foarte largă (VLSI), ce 
a culminat cu apariția microprocesorului pe un singur cip, a condus la 
propunerea unui număr mare de proiecte de calculatoare unde, la rezol- 
varea unei probleme, cooperează mai multe fluxuri de instrucțiuni. Astfel 
de calculatoare, cu mai multe fluxuri de instrucțiuni sau MIMD, sînt tre- 
cute în revistă în cap. 1 în $1.1.8., clasificate în $1.2.5, iar unul dintre ele, 
Deneicor HEP, este descris în detaliu în cap. 3 $3.4.4.). 

Noile caracteristici arhitecturale solicită limbaje şi algoritmi numerice 
noi pentru a exploata avantajele oferite. Deoarece calculatoarele paralele 
sint proiectate să lucreze cel mai eficient cu liste mono-sau-bi-dimensio- 
nale de informaţii, se introduce în limbajele calculatoarelor conceptul 
matematic de vector sau matrice, iar algoritmii sînt analizați în funcţie 
de capacitatea lor de a prelucra vectori. Cum un limbaj bun influenţează 
mult ușurința programării, capitolul 4 este dedicat limbajelor paralele anali- 
zate din punctul de vedere al paralelismului implicit ($4.2), paralelismu- 
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lui structurii ($4.3) şi paralelismului procesului (54.4). Utilitatea calcula- 
toarelor paralele depinde de inventarea sau selectarea unor algoritmi para- 
leli adecvaţi şi de aceea în capitolul 5 stabilim principiile pentru măsurarea 
performanțelor algoritmilor pentru un calculator paralel. Apoi, acestea 
sint aplicate pentru selectarea algoritmilor pentru recurenţe, înmulțirea 
matricilor, transformate, rezolvarea ecuaţiilor liniare tridiagonale şi unele 
ecuaţii diferenţiale parţiale. 

Deşi prezentarea noastră se bazează pe analiza situaţiei la nivelul 
aprozimuliv al anului 1987, încercăm să stabilim principii pe care utiliza- 
torul le va întilni și folosi şi în viitor. Obiectivul nostru este de a permite 
cititorului să evalueze noile proiecte prin clasificarea arhitecturii lor și 
caracterizarea performanţelor, iar de aici să poată selecta algoritmi și lim- 
baje adecvate pentru rezolvarea unor probleme specifice. 


1.1. Istoria paralelismului şi a superealeulatoarelor 


Prezentarea noastră istorică va fi în primul rînd un studiu al influen- 
ţei paralelismului asupra arhitecturii calculatoarelor de mare performanță, 
situate la extremitatea superioară din punct de vedere al performanţelor, 
proiectate pentru rezolvarea unor probleme ştiinţifice sau inginereşti difi- 
cile (de exemplu, rezolvarea ecuaţiilor cu derivate parţiale în timp tri- 
dimensionale). În aceste cazuri se cere o performanță maximă la execuția 
operaţiilor aritmetice în virgulă mobilă, atinsă printr-o combinaţie între 
noile tehnologii şi introducerea paralelismului în arhitectura calculatoarelor, 
Calculatoarele ce satisfac condiţia de mai sus sint; cunoscute ca super- 
calculatoare, de aceea acest subeapitol poate fi considerat la fel de bine 
ca un istoric al supercalculatoarelor. 

Vom prezenta. istoria introducerii paralelismului în arhitectura cal- 
culatoarelor adoptind criteriul timpului cerut pentru execuţia unei operaţii 
aritmetice simple, de exemplu o înmulţire în virgulă mobilă, începind cu 
primul calculator comercializat, UNIVAC 1, apărut în anul 1951. Rezul- 
tatul este ilustrat în figura 1.1 și demonstrea- 
ză o creştere de 10 ori a vitezei de calcul la 
fiecare 5 ani. Creşterea, senzaţională a, vitezei 
de calcul a fost posibilă prin combinarea pro- 
greselor tehnologice cu introducerea progresi- 
vă a paralelismului la toate nivelurile arhi- 
tecturii calculatoarelor. 

Prima generaţie de calculatoare, a anilor 
"50, folosea tuburi electronice caracterizate 
deun timp de întirziere /poartă* de aproxima- 
tiv 1 microseec. Acestea, au fost înlocuite prin 
w A E anii '60 cu tranzistoare cu germaniu (timp 
HA Th Atone moniu ee de întirziere/poartă de aproximativ 0,3 mi- 

z crosec.) care definesc calculatoarele din ge- 


cu anul 1950, ce ilustrează o creş- = is i a 
tere de 10 ori la fiecare 5 ani. neraţia a doua, ca IBM 7090. În jurul anului 


* Timpul de intirziere /poartă reprezintă intervalul de timp necesar propagării semnalului 
de la intrarea unei parți logice la intrarea următoarei porţi .(Vezi, de ex., Turn 1974, p. 147) 
Valorile indică numai ordinul de mărime al timpului de întirziere. 
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1965 a început introducerea circuitelor integrate pe scară redusă (SSI), cu cî- 
teva porţi pe un circuit şi un timp de întirziere/poartă de 10 ns. Acest; proces 
a continuat pînă prin 1975, cînd s-au obţinut timpi de propagare cu ceva 
mai mici ca 1 ns. Tehnologia MOS a permis o densitate de porţi pe circuit 
mult mai mare, deşi cu o scădere a vitezei semnalului de 5 pină la 10 ori. 
Pe la inceputul anilor '80 au invadat piața microprocesoarele, cu o: 
viteză şi capacitate aproximativ egale cu a primei generaţii de calculatoare, 
dar realizate pe un singur cip de siliciu de cîțiva mm pătraţi. Acest pro- 
gres ingineresc a făcut, în mod evident, posibilă implementarea unor arhi- 
tecturi cu un grad mare de paralelism, care anterior erau studiate numai 
teoretic. 

Analizind perioada 1950—1975 se observă că viteza de bază a com- 
ponentelor, măsurată ca inversul timpului de întirziere/poartă, a crescut 
de aproximativ 1000 ori, în timp ce performanţa calculatoarelor, măsu- 
rată, ca inversul timpului de execuţie a unei înmulţiri, au crescut de apro- 
ximativ 100000 ori. Creşterea suplimentară a fost posibilă prin perfecţio- 
narea arhitecturii, în principal prin introducerea paralelismului, care 
este subiectul principal al acestei cărți. Din motive economice, diferitele 
tehnologii favorizează introducerea paralelismului în moduri diferite. 
De exemplu, în capitolul 6, discutăm influenţa tehnologiilor de integrare 
VLSI şi WSI asupra modului cum se va introduce paralelisinul în arhitec- 
tura, viitoarelor supercalculatoare ştiinţifice. Turn (1974) discută și el în 
cartea sa „Computers în the 1980's” dezvoltarea tehnologică, inclusiv unele 
previziuni interesante pentru anii '80. Acelaşi subiect este tratat şi de 
Sumner (1982) în „State of the Art Report : Supercomputer Systems Tech- 
nology”. În continuare ne vom referi la aspectele organizatorice ale intro- 
ducerii paralelismului, mai mult decît la detaliile implementării în hard- 
ware. > 

Analiza de mai sus nu a luat în considerare posibilele suprapuneri 
ale operațiilor logice și aritmetice diferite, dar putem compara în schimb 
perioada ceasului (clock period), ca o măsură a vitezei dată de tehnologie, 
cu numärul operațiilor aritmetice utile executate pe secundă pentru a 
rezolva o problemă, ca o măsură a performanțelor. Wilkes et al. (1951) 
menționează un timp de execuție de 18n ms pentru evaluarea unei serii 
de n termeni (2n operații aritmetice) pentru EDSAC 1 (Wilkes și Renwick 
1949), care avea o perioadă a ceasului de 2 microsec. Aceasta înseamnă o 
viteză medie de 100 operaţii aritmetice/s pe care o putem compara cu cea 
de 130 mil. op. aritmetice/s a calculatorului CRAY-1 (Russell 1978) reali- 
zată la înmulţirea matricelor. Deoarece CRAY-1 are o perioadă de tact de 
12,5 ns şi cresterea performanţelor în ultimele trei decade este de 10, 
din aceasta numai un factor de aproximativ 160 poate îi atribuit progrese- 
lor tehnologice. De asemenea, trebuie remarcată creșterea calităţii operații- 
lor aritmetice, de la operanzi în virgulă fixă pe 36 de biţi, în cazul lui 
EDSAC 1, la operanzi în virgulă mobilă de 64 de biţi la ORAY-1. 

Arhitectura generală a primei generaţii de calculatoare este descrisă 
ca serială şi respectă ideile fundamentale ale calculatoarelor cu program 
memorat prezentate de Burks et al. (1946) şi cunoscute ca organizare 
von Neumann. Un astfel de calculator este format dintr-un dispozitiv de 
I/E , o memorie unică pentru stocarea instrucţiunilor și operanzilor, o 
singură unitate de control pentru interpretarea instrucţiunilor şi o unitate 
aritmetico-logică peniru prelucrarea datelor. Ultimele două unităţi for- 
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mează unitatea centrală sau CPU. Caracteristica importantă a acestei 
organizări este execuţia secvenţială a tuturor operaţiilor, (memory fetch, 
store, operaţii aritmetice şi logice, operaţii de.I/E). Paralelismul se referă 
la capacitatea de a suprapune sau executa simultan mai multe operaţii. 

În $1.2 sînt descrise pe larg căile de introducere a paralelismului 
în arhitectura calculatoarelor. Pe scurt, acestea sînt: 

a) Pipelining — creşterea performanțelor unităţilor aritmetice sau 
de comandă prin utilizarea unor tehnici similare liniei de asamblare; 

b) Funcţională — mai multe unităţi independente realizează funcţii 
diferite (logice aritmetice) simultan cu date diferite ; ` 

c) Masiv de procesoare — un masiv de elemente procesoare (PE) iden- 
tice, care realizează simultan aceeași operație sub aceeași comandă asupra 
unor date diferite stocate în memorii locale ; 

d) Multiprocesare — mai multe procesoare, fiecare executîind instruc- 
țiunile proprii și comunicînd, în general, printr-o memorie comună, sau 
conectate într-o rețea. 

Desigur,proiectele individuale pot îmbina unele sau toate tipurile de 
organizare enunțate. De exemplu, un masiv de procesoare poate avea uni- 
tăţile aritmetice pipeline sau o unitate funcțională a unui calculator cu 
mai multe unităţi poate fi un masiv de procesoare. 

Spre sfirsitul anilor '70 proiectele multiprocesor au implementat me- 
tode de conectare a mai multor calculatoare independente pentru a 
maximiza performanţele ansamblului. Această soluţie este desigur impor- 
tantă, dar nu reprezintă scopul acestei cărţi. În consecință, vom prezenta, 
exemple de sisteme multiprocesor numai cînd apar ca exemple de parale- 
lism într-un calculator. Referitor la aceste sisteme în contextul mai larg 
al performanţelor se pot consulta Enslow (1974, 1977), Infotech (1976) şi 
Jones și Schwarz (1980). Apariţia în jurul anului 1975 a microprocesorului 
ieftin face posibilă implementarea sistemului cu mai multe microprocesoare 
ce cooperează la rezolvarea unei probleme, sisteme ce vor deveni, probabil 
importante în anii '80. S-au propus şi realizat deja sisteme experimentale 
(Satyanarayanan (1930), Hockney (19550, d) şi $1.1.8). O tratare excelentă, 
a paralelismului, cu toate aspectele sale (unităţi aritmetice, organizarea 
memoriei, programare, I/E, muitiprocesare și multiprogramare) este reali- 
zată de Lorin (1972) în cartea sa „Parallelism in Hardware and Software : 
Real and Apparent Concurrency”. Hwang şi Briggs (1984) au realizat în 
lucrarea lor „Computer Architecture and Parallel Processing” un studiu 
comprehensiv al tuturor tipurilor de arhitecturi paralele.Supercalculatoa- 
rele sînt considerate în mod particular de către Lazou (1986) în volumul 
„Supercomputers and their Use”. | 

` Noi nu încercăm o prezentare completă a istoriei paralelismului, ci 
numai a progreselor care au marcat pasi importanţi în introducerea lui. 
Nu putem menţiona toate maşinile sau lucrările publicate. În schimb, am 
ales acele maşini care fie că au avut succes comercial, fie au avut o in- 
fluentă importantă asupra domeniului. Similar sînt menționate numai unele 
lucrări științifice cu o mare influenţă. În figura 1.2 sînt ilustrate principa- 
lele direcţii şi conexiuni privind introducerea paralelismului în arhitectura 
calculatoarelor. Vom trata separat în continuare principalele direcţii de 
dezvoltare. Zea | 
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Cititorii interesaţi de primele începuturi ale calculatoarelor, înainte 
de 1950, pot; consulta colecţia de articole editată de Randell (1975) şi 
intitulată „„Phe Origins of Digital Computers : Selected papers” şi cartea lui 
Hartree (1930) „Calculating Instruments and Machines”, Metropolis, How- 
leit şi Rota (1980) au reunit sub titlul „A History of Computing in the 
Twentieih Century” o serie de eseuri scrise de pionieri în domeniul calcula- 
toarelor. Se tratează atît activitatea din timpul războiului în S.U.A. și 
Marca Britanie, cit și cercetări efectuate în U.R.S.S., Japonia, Germania 
şi Cehoslovacia. Kuck (1978) realizează în cartea „Zhe Structure af Com- 
pulers and Compulaiious” o descriere foarte- plăcută a istoriei proiectării 
calculatoarelor de la Babbage pînă la începutul anilor '50. Este inclusă şi o 
descriere foarte interesantă a influențelor reciproce între personalitățile 
implicate în etapa iniţială de dezvoltare a calculatoarelor numerice, ca şi 
a problemelor inginerești cu care au fost confruntate. O analiză, istorică 
valoroasă este cea; a lui Rosen (1969) care descrie evoluţia calculatoarelor 
de la ENIAC în 1946 la CDC 7600 în 1968. Informaţii detaliate despre 
arhitectura multor calculatoare pe care le vom menţiona se găsesc în 
Bell și Newell (1971) „Computer Structures; Readings and- Examples”. 
Această carte acoperă perioada 1950—1970 şi cuprinde detalii ce nu pot 
fi găsite altundeva. Această carte a fost revizuită și actualizată de Siewio- 
rek, Bell şi Newell (1982) sub titlul „Computer Structures : Principles and 
Baamples”. Aceste două cărți tratează în special arhitectura calculatoare- 
lor seriale de mare succes (de exemplu, PDP 8 și 11, IBM 360), dar 
ultima include şi o descriere a unor sisteme paralele (ILLIAC IV, STA- 
RAN, C. mmp., CRAY-I, TIASC). Alte mașini (ATLAS, IBM 370, UNI- 
VAC 1109, DEC 10, CRAY 1) sint descrise în numere speciale ale revistei 
Com. of the Ass. ot Computing Machinery., dedicate arhitecturii calcula- 
toarelor (ACM 1978) şi în cartea, lui Ibbett (1982), „The Architecture of 
High Performance Computers”, care discută de asemenea: CDU 6600 şi 
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Fig. 1.2. Arbore de evoluţie ce arală conexiunile arhitecturale şi influențele marcan- 

te în cursul dezvoltării calculatoarelor paralele începînd din anii 50 şi încheind la 

mijlocul anilor*80. Numerele din paranteză reprezintă numai un ghid asupra perfor- 

mânţelor în Milop/s a calculatoarelor. Liniile întrerupte indică relaţiile arhitecturale 
i puternice. i 
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7600, IBM 360 modelele 91 şi 195, TIASC și CDC CYBER 205. Treceri 
în revistă ale arhitecturilor celor mai multor calculatoare comerciale se 
pot găsi într-o serie de rapoarte asupra tehnologiei calculatoarelor publi- 
cate de Auerbach (19763). Recent, Zakharov (1984) a realizat o trecere în 
revistă a paralelismului şi procesării masivelor, incluzînd şi exemple de 
programare. 


1.1.1. Paralelismul pină în 1960 


Se consideră că prima referință la paralelism în proiectarea calcula- 
toarelor se găseşte în lucrarea generalului L.F. Menabrea, publicată în 
Biblioteque Universelle de Genève, în octombrie -1842, „Sketch of the 
Analytical Engine Invented by Charles Babbage” (vezi Morrison şi Morrison 
1961, p. 244, Kuck 1917). El scrie, enunţind utilitatea maşinii analitice : 
„În al doilea rind, economia de timp : pentru a ne convinge, trebuie să ne amintim că înmulţi- 
rea a două numere, fiecare cu 20 cifre, durează cel mult 3 minute. În același mod, cind se exe- 


cută un şir lung de operaţii identice, ca de exemplu: la formarea tabelelor matematice, maşina 
poate furniza mai multe rezultate în același timp, ceca ce va scurta mult timpul de execuţie”. 


Se pare că posibilitatea de a realiza operaţii în paralel nu a fost 
inclusă în proiectul final al mașinii de calculat a lui Babbage; totuşi, 
este clar că ideea utilizării paralelismului pentru a crește performanţa 
mașinii i-a venit lui Babbage cu 100 de ani înainte ca tehnologia să facă 
posibilă implementarea ei. Ch. Babbage este autorul şi al altor idei funda- 
mentale asupra calculului. În lucrările sale privind diferenţa, mecanică şi 
maşinile analitice necesare pentru producerea unor tabele astronomice 
sigure (Babbage 1822, 1864, 1910, Randell 1975). 

Primul calculator electronic numeric de uz general, ENIAC, a fost 
o maşină cu un grad înalt de paralelism si descentralizare. Deşi a fost 
conceput şi proiectat în principal de J.W. Mauchly și J.P. Eckert Jr., 
ENIAC a fost descris mai mult de alţii (Goldstine și Goldstine 1946, Har- 
tree 1946, 1950, Burks şi Burks 1981). ENIAC poate fi considerat ca pri- 
mul calculator MIMD, deoarece avea 25 unităţi de calcul independente 
(20 acumulatoare, 1 multiplicator, 1 divizor/extractor de radical şi 3 uni- 
tăţi cu tabele memorate), fiecare urmind propria secvenţă de operaţii și 
cooperind la rezolvarea unei singure probleme. Mai mult, el folosea intern 
aritmotica zecimală şi efectua calculele în paralel cu cele 10 cifre zecimale 
ale unui număr. ENIAC a fost proiectat și construit la Moore School of 
Engineering. Universitatea din Pennsylvania, între 1943 şi 1946, în cadrul 
unui contract; cu armata S.U.A., apoi a fost mutat la Aberdeen Ballistic 
Research Laboratory, unde a fost folosit pină în anul 1955 pentru calculul 
traiectoriilor proiectilelor. 

Arhitectura generală a lui ENIAC a fost concepută ca o versiune elec- 
tronică a analizorilor diferențiali mecanici care erau, la acea dată, cele 
mai avansate mașini pentru rezolvarea ecuaţiilor diferențiale ( Bush 1931, 
1936, Hartree 1950). Aceste maşini foloseau o roată verticală în contact cu 
un disc orizontal pentru a forma un integrator mecanic. Dacă y este 
distanţa roții la centrul discului, iar discul se rotește cu un unghi dx, atunci 
roata se roteşte cu un unghi ydx. De aici, dacă y variază proporţional cu 
integrantul, rotația totală acumulată a roții este ydx. Pentru a obţine o 
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soluţie, s-au conectat prin axe mai mulți integratori de acest tip, conform 
tipului de ecuaţie diferenţială ce trebuie rezolvată (vezi Hartree 1950). 
Astfel, analizorui diferenţial mecanic era un dispozitiv analogic la care 
rotația unghiulară a axului era proporțională cu valorile variabilelor din 
problemă. În mod similar calculatoarelor analogice electronice de mai tir- 
ziu, toate integratoarele (denumite apoi amplificatoare) lucrau simultan 
şi în paralel, Acest mod de lucru în paralel a fost menţinut de ENIAC. 
Totuşi, deoarece trebuiau folosite diferențe finite, peniru a reprezenta 
coeficienţii diferenţiali, iar integralele au devenit sume finite, integratoarele 
analizorului diferenţial au devenit unităţi acumulator (de exemplu, suma- 
toare) în ENIAC. 

Folosind terminologia de azi, se poate descrie programarea lui ENIAC 
în felul următor : se atribuie diferitelor acumulatoare variabilele din for- 
mularea cu diferenţe finite a problemei. Ieşirile și intrările acumulatoarelor 
se conectează împreună, aşa cum cer ecuaţiile, prin intermediul unor co- 
nectori externi; se iniţializează pentru fiecare acumulator secvenţa de 
operaţii ce trebuie executată cu niște comutatoare (se poate stabili un micro- 
program diferit pentru fiecare din cele 20 acumulatoare), iar în unitatea, 
centrală se programează în acelaşi mod programul ce iniţiază execuţia. 
microprogramelor fiecărui acumulator la momentul de timp potrivit şi 
sineronizează funcţionarea lor. Se observă că nu există conceptul unui sin- 
gur program memorat care să descrie întregul algoritm, și care ar fi urmat 
să fie executat de o arhitectură fixă de calculator — această idee impor- 
tantă a calculatorului cu program memorat a fost implementată pentru 
prima dată la următoarea generaţie de calculatoare. 

Prin contrast, arhitectura lui ENIAC se reorganiza pentru fiecare pro- 
blemă, prin folosirea unor comutatori externi ce' stabileau conexiunile intre 
unităţi. Se poate spune că algoritmul era cablat în calculator. Este intere- 
sant că astfel de idei încep să sune foarte „,moderne” din nou în anii '80, 
în contextul sistemelor MIMD, al masivelor VLSI reconfigurabile și al cal- 
culatoarelor specializate ce execută foarte rapid un set limitat de algoritmi 
implementaţi intern. Oricum, în 1940 nu era timpul potrivit pentru acest 
tip de arhitectură paralelă, așa cum se vede şi din următorul citat din 
Burks (1981), membru al echipei de proiectare ENIAC : 


„„Paralelismul lui ENIAC a avut o viaţă scurtă. Mașina a fost terminată în 1946, an în 
care se proiectau deja calculatoare cu program memorat. S-a înţeles, mai tirziu, că ENIAC putea 
fi reorganizat în maniera centralizată a acelor calculatoare noi iar atunci cînd s-a realizat aceasta 
cra mult mai uşor de formulat problema pentru maşină. Această modificare a fost încheiată în 
1948... „Ulterior nu s-a mai modificat conectica externă, iar maşina era programată prin comuta- 
toare de la un punct central. În acest mod, primul calculator electronic de uz gencral, construit 
cu o arhitectură paralelă descentralizată, a lucrat perioada cea mai îndelungată a existentei sale 
ca un calculator serial centralizat!" 


Dificultatea programării calculatoarelor paralele este o temă ce revine: 
şi urmează să se vadă dacă al doilea val al calculatoarelor paralele din 
anii '80 va avea mai mult succes decit primul! 

Primele calculatoare cu program memorat — EDSAC la Universita- 
tea Cambridge (Wilkes gi Renwick 1949) şi EDVAC la Universitatea Pennsyl- 
vania — ca şi variantele lor comerciale (UNIVAC 1: vezi Eckert et al. 
1951) foloseau memorii cu linii de întîrziere cu mercur și o capacitate de 
100 cuvinte. Deoarece, într-o astfel de memorie, biții succesivi ai unui 
număr sînt citiți secvențial începînd cu bitul cel mai puţin semnificativ 
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era natural şi economic ca operaţiile să se execute cu 2 operanzi, bit cu 
bit. Astfel, adunarea a două numere de 32 de biţi se realizează în 32 de 
cicli de maşină. Adunarea realizată astfel se numeşte „serială, bit cu 
dit”, iar prima utilizare a paralelismului în calculatoare s-a obţinut prin 
efectuarea; operațiilor cu toți biții unui număr în paralel. 

Este interesant de menţionat că organizarea serială a fost considerată 
ca un avantaj introdus de componentele electronice în calculatoare, care 
realizau în mod tradițional operaţiile în paralel. De exemplu, Babbage a 
respins principiul funcţionării seriale datorită timpului de execuţie mare 
(Babbage 1864, Morrison și Morrison 1961 pagina 34), iar maşina sa- realiza 
operaţii aritmetice pe 50 de cifre zecimale în paralel. Un calculator de birou 
obişnuit al anului 1940 lucra cu aproximativ 12 cifre zecimale în paralel. 
Plusul de viteză al componentelor electronice faţă de cele mecanice şi 
electromecanice a permis o creştere a performanţei între 1000 şi 10000, 
împreună cu o economie de echipament determinată de prelucrarea unei 
singure cifre la un moment dat. Acelaşi lucru este adevărat dacă se com- 
pară aritmetica paralelă a lui ENIAC, o masină electronică anterioară, 
cu aritmetica serială a unor maşini ca EDVAC (von Neumann 1945). Teh- 
nica circuitelor a progresat pină la punctul unde intervalul de timp între 
impulsuri era la EDVAC de 1 microsec. În comparaţie cu 10 microsec. la 
ENIAC, ceea ce determină execuţia unei adunări seriale pe 32 biţi în 32 
microsec., în comparaţie cu o operaţie zecimală cu 10 cifre executată în 
200 microsee, la ENIAC. De asemenea, înmulțirea, prin sumare repetată, 
era mâi rapidă la EDVAC decit la ENIAC, deși ENIAC putea înmulți 10 
perechi de cifre zecimale în paralel. 

Un calculator din prima generaţie care. cuprindea anumite caracte- 
ristici de paralelisin a fost ACE şi varianta sa comercială, English Electric 
DEUCE. Proiectarea modelului pilot ACE (Wilkinson 1953) a fost reali- 
zată în timpul prezenţei Dr. H.D. Huskey la Laboratorul național de fizică 
al Marii Britanii în anul 1947, după ideiie Dr. A.M.. Turing (Turing 1959) 
şi a devenit operaţional în 1951. Această maşină avea 11 linii de întivzicre, 
fiecare cu o capacitate de 32 de cuvinte de 32 de biţi şi un timp de re- 
circulare de 1 msec. Unitatea aritmetică funcţiona serial cu o frecvență a 
tactului de 1 microsec. Maşina includea un lector de cartele, un perforator 
de cartele, un multiplicator care opera în paralel cu restul sistemului și un 
pachet de instrucțiuni (pe care le-am denumi azi instrucţiuni vectoriale) 
pentru un număr limitat de operaţii asupra tuturor celor 32 de numere 
dintr-o linie de întţirziere. De exemplu, CPU realiza conversia zecimal-binar 
sau binar-zecimal în timp ce funcţiona şi lectorul de cartele sau pertorato- 
rul de cartele. De asemenea, semnul unei înmulţiri se stabilea de sumator 
în 2 ms, timpul necesar efectuării înmulţiri. Acestea sînt exemple de parale- 
lism funcțional. O instrucțiune putea fi menţinută activă (de fapt prin 
repetare) pentru 32 de perioade de ceas, permiţind, de exemplu, execuţia 
unor operaţii asupra tuturor celor 32 de numere dintr-o linie de întirziere. 
Această facilitate a fost frecvent folosită pentru calcului sumelor de con- 
trol şi este unul din exemplele cele mai vechi de instrucţiuni vectoriale. 

În versiunea comercială, DEUCE (Haley 1955), apărută în 1954, memoria 
rapidă a fost mărită la 12 linii cu întîrziere şi extinsă cu un tambur magne- 
tic de 8000 de cuvinte. Paralelismul era evident în timpul transferului de 
pe tambur, deoarece în acest timp se puteau executa calcule în restul ma- 
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şinii. Suplimentar, DEUCE era dotat cu un divizor în virgulă fixă imple- 
mentat hard, care putea lucra în paralel cu restul mașinii, ca şi multiplica- 
torul. Oricum, el utiliza aceleaşi registre cu multiplicatorul. Se foloseau ca 
registre cu acces rapid 3 linii de întirziere pentru un cuvint, 3 pentru două 
cuvinte şi 2 pentru patru cuvinte. Sumatoarele aveau asociate două linii 
de întârziere, una cu un cuvînt, şi una cu două cuvinte, folosite şi ca acu- 
mulatoare. 

Memoriile RAM au permis extragerea în paralel a biţilor unui cuvînt, 
ceca ce a dus la proiectarea unităţilor aritmetice ce operează în paralel pe 
mai mulți biţi. Prima maşină experimentală care a implementat aritmetica 
paralelă a fost terminată în 1952 la Institutul de studii avansate (IA S) şi 
a fost urmată în 1953 de primul calculator comercial cu aritmetică paralelă, 
IBM 701. Ambele mașini foloseau ca memorii tuburi catodice electrosta- 
tice, inventate de Williams și Kilburn (1949), ce au fost înlocuite după 
cîțiva ani de memorii cu ferite. Cel mai mare succes l-a avut IBM 704, 
din care s-au vîndut aproximativ 150 bucăţi. Această maşină avea nu numai 
aritmetica paralelă, dar și prima unitate aritmetică în virgulă mobilă 
implementată hard, ceea ce i-a asigurat un plus de viteză faţă de maşinile 
ce simulau această unitate prin soft. Primul IBM 704 a fost vindut în 
1955, iar ultimul dezafectat în 1975. Istoria remarcabilă a acestei maşini 
din prima generaţie, operaţională mai bine de 20 de ani, este descrisă de 
Me Laughlin (1975). 

La IBM 704, ca şi la alie maşini ale timpului ei, informaţiile citite de 
echipamentele de intrare sau scrise la echipamentul de ieşire treceau prin- 
tr-un registru al unităţii aritmetice, ceea ce împiedica funcționarea. simul- 
iană a unităţii aritmetice cu unităţile de 1/8. Iniţial, echipamentul cu- 
prindea, un cititor de cartele (150 —250 cartele/min), perforator de cartele 
(109 cartele/min) si o imprimantă (159 linii, min). Curind acestea au fost 
înlocuite de primele unități de bandă magnetică (cu o viteză de citire/ 
seriere de 13000 caracterejsecundă), de cel puţin 100 de ori mai rapide decit 
lectorul de cartele sau imprimanta. Un calculator specializat suplimentar, 
iBA 1491, asigură transferul offline între lectorul de cartele și banda mag- 
netică sau între banda magnetică şi imprimantă. Oricum viteza acestor 
unităţi, era de aproximativ 1000 de ori mai mică decît a unităţii centrale, 
de unde situațiile de sirangulare produse de canalele de I/F. 

Problema I/E a fost parţial rezolvată prin funcționarea în paralel cu 
imprimanta şi lectorul de cartele a unității aritmetice și logice. A fost 
introdus astfel un caleulator suplimentar, denumit canalul de i IE., a cărui 
funcţie era asigurarea transferului între echipamentele periterice leute, ca 
cititorul de cartele, benzile magnetice sau imprimanta și memoria operativă 
a caleulatorului. Odată ai de unitatea centrală, transferul blocurilor 
mari de date continuă sub controlul canalului de 78, în timp ce unitatea 
aritmetică functiona în paralel. Canalul de I/£ aro setul său propriu de 
instrucţiuni, specializat: pentru operaţiile de I/B și unitatea sa proprie 
de execuţie a instrucţiunilor împreună cu ragisirele asosiata. În 1953 s-au 
adăugat 6 astfel de canale la IBM 704, rebotezat. IBM 709. Acesta este 
un prim exemplu de mt uitiproces sare. IBM 709 a fost reproiectat i în tehnolo- 
gie tranzistorizată şi vindut în 1959 ca IB M 7999. Această maşin: ah împreună 
cu versiunile ulterioare (IBM 7094 şi 7094 II) a avut un mare succes eo- 
mercial, aproximativ 490 bucăţi fiind produse şi vindute. 
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În faza iniţială de proiectare a unui dispozitiv nou apar multe idei 
şi variante, după care urmează o perioadă dominată de investiţii masive 
pentru varianta adoptată. După aceea este dificil de a introduce noi 
inovaţii, în special datorită sumelor investite. Un exemplu este cel al mo- 
torului de automobil, care a inclus o mare varietate de principii, dar mai 
ales punerea la punct a motorului cu combustie internă. Cu greu şi-ar 
propune cineva azi să înlocuiască acest tip de motor. Similar, în anii 
'30 s-au analizat multe proiecte de arhitecturi noi, deşi, pînă spre 1980, 
numai calculatoarele SISD au avut un succes comercial cert, Oricum, se 
pare că tehnologia VLSI şi microprocesoarele ieftine vor permite realiza- 
rea unora din aceste arhitecturi în anii '80. 

În anul 1952 Leondes și Rubinoff au descris un calculator multi-opera- 
ţii, ce folosea o memorie cu tambur. Maşina DINA era un analizor digital 
pentru rezolvarea ecuaţiilor lui Laplace. Un concept oarecum similar a 
fost introdus de Zuse (1958) în proiectarea unei „maşini de calcul a cim- 
pului”. Von Neumann (1952) a stabilit principiile conectării spaţiale a 
masivelor de procesoare, arătînd că un masiv bidimensional de elemente 
de calcul cu 29 de stări poate realiza toate operaţiile, deoarece simulează 
comportarea unei maşini Turing. Acest rezultat teoretic a fost urmat de 
propunerile pentru realizări practice ale lui Unger (1958), care poate fi 
considerat părintele calculatoarelor anilor '70, SOLOMON, ILLIAC IV 
şi ICL DAP. 

În mod similar, lucrările lui Holland (1959), ce deseriau un ansamblu 
de procesoare executind fiecare propriul flux de instrucţiuni, pot fi con- 
siderate primele proiecte de sistem multiprocesor, de la care pleacă pro- 
iectele ulterioare de microprocesoare interconectate, ca acela propus 20 
de ani mai tirziu de Pease (1977) şi de Bustos et al (1979) pentru rezolva- 
rea, problemelor de difuzie. Pease a propus un proiect de cub binar n-dimen- 
sional format din 2? microprocesoare conectate ca un cub 1—, 2— sau 
n— dimensional, adecvat pentru rezolvarea unei game largi de probleme 
ca, de exemplu, efectuarea transformatei Fourier. Se puteau folosi pină la 
16384 micreprocesoare, (n =: 14). Hipercubul anunţat de IMS Associates 
(Millard 1975) se baza pe ideile lui Pease : era format dintr-un enb 4-di- 
mensional cu 2 microprocesoare în fiecare nod, unul pentru comunicaţii 
şi celălalt pentru operaţii. Acest hipercub particular nu reprezintă nimic 
acum, totuşi ideea a reapărut la începutul anilor '80 sub forma proiectelor 
Cosmic Cube şi Intel Personal Supercomputer (vezi $1.1.8). 


1.1.2. Caleulatoare sealare rapide 


Un calculator scalar execută instrucţiuni care se referă numai la ope- 
ranzi formaţi dintr-un singur număr, spre deosebire de calculatoarele vec- 
toriale care posedă şi instrucțiuni pentru manipularea unui set ordonat 
de numere (vector). Istoria dezvoltării calculatoarelor scalare în anii '60 
şi '70 este istoria introducerii din ce în ce mai mult a paralelismului în 
proiectarea generală a calculatoarelor SISD, ca IBM 7090, care a devenit 
un model standard pe la sfirșitul anilor '50. 

Calculatorul ATLAS (Küburn et al 1962, Sumner et al 1962, Howarth 
et al 1961, 1962, Lavington 1978) a avut o influență profundă atit asupra 
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arhitecturii cit şi a soft-ului. Această mașină a fost concepută la Universi- 
tatea Manchester în jurul anului 1956 și proiectată de un colectiv mixt 
universitate-industrie sub conducerea prof. Kilburn. Prototipul a devenit 
operaţional în 1961, iar primul exemplar comercial a fost produs de 
firma Ferranti Ltd (mai tirziu componentă a ICL) în 1963. ATLAS a 
devenit cunoscut prin introducerea unui sistem de operare cu facilităţi 
de multiprogramare complexă, cu o memorie virtuală de mare capacitate 
şi un sistem de întreruperi. Sistemul de operare organiza alocarea de resurse 
programelor în diferite etape ale execuţiei. Spaţiul de adresare virtuală era 
văzut de utilizator ca o memorie cu un singur nivel de aproximativ 10° 
cuvinte, translatat în mai multe nivele fizice ce cuprindeau memorii cu 
ferite (16 Kcuv). tambur magnetic (96 Kcuv.) şi benzi magnetice. Trans- 
latarea se realiza cu un sistem de paginare care transfera informaţii între 
diferitele nivele ale memoriei în unităţi de 512 cuvinte, denumite pagini. 
Sistemul de înireruperi permitea lucrul independent al dispozitivelor de 
I/E lente şi întreruperea CPU, numai cînd era absolut necesar. 

În plus față de cele prezentate, ATLAS utiliza paralelisnuul şi pentru 
creşterea vitezei de calcul. Memoria cu ferite, cu un ciclu de 2 microsec. 
era împărțită în 4 blocuri independente (denumite stive) care făceau posi- 
bilă, în circumstanţe favorabile, regăsirea într-un ciclu de memorie a două, 
instrucţiuni și a celor doi operanzi simultan. Unitatea de calcul lucra para- 
lel pe bit (Kilburn et al. 1960). Paralelismul funcţional era prezent sub 
forma unui sumator separat de 24 pe biţi, pentru calculul indexului, denu- 
mit unitatea aritmetică B, în plus față de unitatea aritmetică în virgulă, 
fixă şi mobilă pe 48 de biţi (40 biţi mantisa şi 8 biţi exponentul), ce folosea 
un singur acumulator. Unitatea aritmetică B lucra în asociaţie cu 128 
registre index de 24 biţi (denumite liniile B), construite din ferite şi cu un 
timp de acces de 0,7 microsec. Instrucţiunile aveau un singur cîmp de adrese 
şi specificau o operaţie între conținutul acelei adrese şi conținutul acumula- 
torului principal. O instrucțiune de 48 biți era formată dintr-un cimp de 
de cod de 10 biţi, o adresă în memoria principală de 24 biţi şi două adrese 
de registru index de 7 biți. Adresa operandului se obținea prin sumarea 
conţinutului unuia sau al ambelor registre index la adresa principală. Prin- 
cipiul pipelining era utilizat pentru suprapunerea următoarelor faze ale 
execuţiei instrucțiunilor : extragerea instrucțiunilor, calcularea în unitatea 
B a adresei operandului, extragerea operandului şi execuţia; calculelor în 
acumulatorul principal pe 48 biţi. Aplicarea efectivă a acestui principiu 
poate fi apreciată prin faptul că execuţia unor adunări în virgulă mobilă, 
ar fi necesitat 6 microsec./operaţie dacă s-ar fi executat secvențial toate 
fazele şi numai 1,6 microsec./operaţie în medie cu pipelining. În orice mo- 
ment se puteau afla în execuţie între 2 şi 4 instrucţiuni. Timpul corespunză- 
tor pentru înmulţiri în virgulă mobilă era de 5 microsec. Logica lui ATLAS 
era implementată, cu tranzistoare cu germaniu şi diode cu un timp de pro- 
pagare/poartă mediu de 12 ns, Se utilizau aproximativ 80000 tranzistoare. 


Pentru a folosi efectiv posibilităţile de execuţie paralelă oferite de uni- 
tăţile aritmetice multiple, registre şi memorii, trebuie analizat fluxul ins- 
tracțiunilor şi stabilit care pot fi executate concurent, fără alterarea logicii 
programului. După detectarea paralelismului se impune execuţia optimă a 
instrucţiunilor. Aceste aspecte sînt tratate de Keller (1976) şi Kuck. (1978) 
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şi sînt incluse în arhitectura calculatoarelor scalare cele mai rapide ca 
CDC 6600 şi IBM 560/91. 

Introducerea graduală a paralelismului funcţional și pipeline poate 
fi observată în ev oluţia conceptului de calculator scalar la firma CDC, 
sub influenţa lui Seymour R. Cray (membru fondator al firmei în 1957, 
vice-preşedinte şi şef proiectant). CDC 6600, comercializat începînd cu 
1964, a fost primul calculator ce utiliza paralelism funcțional ca o carac- 
teristică esenţială a arhitecturii sale (Thornion 1964). Thornton (1970), 
responsabil pentru detaliile de proiectare, descrie foarte bine proiectarea, 
mașinii în cartea sa ,,Design of a Computer— The Conirol Data 6600”. 
CDC 6600 avea o memorie cu ferite cu un ciclu de 1 microsec., împărțită 
în 32 blocuri independente care luerau în paralel; 70 unităţi funcţionale 
separate pentru înmulţire, împărţire, adunare etc., 10 procesoare periferice 
pentru gestiunea dispozitivelor de I/E lente. Procesoarele de I/E, degi 
paxtajează aceeași unitate aritmetică şi de comandă, execută instrucţiuni 
diferite asupra datelor din blocuri de memorie separate. Acesta este un 
exemplu de sistem multiprocesor. Unitatea. aritmetică funcţiona în vir- 
gulă mobilă (pentru cuvinte de 60 biţi), exceptind unitatea incrementată 
(opera pe 18 biţi) folosită la calculul adreselor și evidenţa buclelor. CDC 
6600 a avut un astfel de succes încît a acaparat: o mare parte din piata 
calculatoarelor ştiinţifice, anterior dominată de IBM 7090 şi 7094. 
anul 1969 CDC a lansat o versiune îmbunătăţită a lui 6600, CDC 7600. 
Viteza noului calculator era de 4 ori mai Maro deoarece perioada ceasului 
a fost redusă de la 100 ns pentru 6600 la 27,5 ns. Cele 10 unităţi funcţio- 
nale organizate serial la 6600 au fost inlocuite cu 8 unităţi funcţionale 
pipeline şi o unitate serială pentru împărţire. Datorită v itezei unităţilor 
pipeline nu a mai fost necesară duplicarea unităților de înmulţire si 
încrementală. A fost adăugată o unitate funcţională suplimentară pentru 
numărarea biţilor de ,,1” într-un cuvînt. Arhitectura calculatoarelor CDC 
6600 (rebotezat CYBER 70 model 74) şi CDC 7600 (rebotezat CYBER 
10 model 76) a avut un mare succes pe piaţa calculatoarelor ştiinţifice. 
Au fost instalate peste 50 de exemplare din ultimul tip. 

Şi istoria producției de calculatoare IBM în anii 60 și '70 ilustrează, 
o introducere graduală a paralelismului. in 1956 a fost abordat cu mare 
entuziaam un "contract cu Laboratorul ştiinţific Los Alamos pentru un 
calculator de 100 de ori mai rapid decît "IBM 704. Acesta a fost botezat 
STRETCH (Dunwell 1956, Bloch 1959) şi a fost comercializat mai apoi 
pentru o perioadă scuriă de timp ca 1BM 7030. Noutăţile introduse cons- 
tau în extragerea, decodificarea, calculul adreselor și extr agerea operanzilor 
mai multor instrucțiuni în avans ca şi împărţirea memoriei în două blo- 
curi independente care puteau alimenta, unitatea aritmetică în paralel. 
Astfel, viteza de transfer a informaţiei către şi de la memorie éra multi- 
plicată de un factor egal cu numărul blocurilor Ge memorie. Acesta este 
primul exemplu de aplicare & paralelismului la memorie și a permis o 
adaptare mai bună între memoria cu ferite și procesor. Aproape toate cal- 
culatoarele mari au folosit ulterior împărţirea memoriei în blocuri. Primul 
STRETCH a fost livrat, în 1961 dar nu a atins performanțele propuse. 
Deoarece şi aspectele financiare au nemultumit conducerea companiei, 
după instalarea a 7 exemplare, construcţia sa a fost sistată. În continuare 


firmà a oferit calculatoarele mai lente dar foarte populare ale seriei 7090. 
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Se părea că după experienţa cu STRETCH, IBM şi-a pierdut interesul 
pentru calculatoarele de mare viteză. În 1964 a tost anunţată seria IBM 
360, dar care nu conţinea nici un model cu performanţe similare lui CDC 
6606, comercializat incepind cu acel an. 

Succesul dramatic al înlocuirii calculatorului IBM 7090 cu CDC 6600 
în multe centre științifice a obligat IBM la un răspuns. Astfel, în anul 
1987 a fost lansat IBM 360/91 (Anderson et al. 1967) cu performanțe 
duble fată de CDC 6600. Maşina avea facilităţile lui STRETCH dar, ca 
şi CDC 6600, unităţile de calcul în virgulă mobilă și de calcul al adresei 
erau separate si pipeline. Principiul pipeline a fost folosit şi pentru creşte- 
rea vitezei de execuţie a instrucţiunilor, operaţiile de extragere a instrucțiu- 
nilor, decodare, calculul adresei, extragerea operanzilor fiind suprapuse 
pentru instrucţiuni succesive. Astfel, mai multe instrucțiuni se găseau si- 
multan în faze diferite ale execuţiei lor şi circulau prin pipeline. În 1969. 
a fost lansat CDC 7600 care a depăşit; de două ori performanţele lui 360/91. 
IBM a răspuns prin lansarea în 1971 a modelului 360/195, cu performanțe 
comparabile cu ale lui CDC 7600. IBM 360/195 (Murphy şi Wade 1970) 
combina arhitectura lui 360/91 cu memoria cache introdusă la 360/85. 
Ideea introducerii unei memorii tampon foarte rapidă (denumită şi cache) 
între memoria principală şi registrele unităţii aritmetice se regăseşte la 
calculatorul ATLAS (Fotheringham 1961). Cache-ul sistemului 360/85 
cu o capacitate de 32768 cuvinte şi un timp de acces de 162 ns, stoca in- 
formaţiile folosite cel mai des în blocuri de 64 octeți. Dacă informaţia solici- 
tată de o instrucţiune nu se găsea în cache, blocul care o conţinea din memo- 
ria principală (4 MB împărţiţi în 16 blocuri) înlocuia blocul cel mai puţin 
folosit din cache. S-a observat că pentru calcule numeroase referinţele 
la memorie tind să se concentreze în jurul unei regiuni limitate de adrese. 
În acest caz cele mai multe referinţe vor fi la memoria cache, iar perfor- 
manţele memoriei lente de 4 MB vor fi în mod efectiv cele ale memoriei 
cache rapide. 

Gene Amdahl, care a fost arhitectul şef al seriei IBM 360 (Amdahl 
et al. 1964) a fondat o companie separată în 1970 (Amdahl Corp) pentru a 
produce o gamă de calculatoare compatibilă cu IBM 360. Aceste maşini 
au marcat un pas important în evoluţia tehnologiei calculatoarelor şi a 
paralelismului. Prima maşină a seriei ,AMDAHL 470V/6, folosea pentru 
prima dată tehnologie LSI pentru circuitele logice ale CPU (ECL cu 100 
porţi/cip), de unde denumirea de maşină din generaţia a patra. În 1975 
s-au produs 6 mașini din care una pentru NASA și una pentru Universi- 
tatea Michigan. Utilizarea LSI a dus la reducerea la aproximativ 1/3 a 
mașinii în comparaţie cu IBM 360/168. Deși unităţile aritmetice nu erau 
pipeline se atingea o viteză mare de calcul prin aplicarea principiilor pipe- 
line la procesarea instrucțiunilor. Execuţia instrucțiunilor era împărţită în 
12 suboperaţii care foloseau 10 circuite separate. La fiecare două perioade 
de ceas (64 ns) intra în execuție o nouă instrucţiune şi, astfel, se aflau în 
execuție simultană 6 instrucţiuni, fiecare într-o fază diferită (pipeline). 
O memorie bipolară tampon (cache) de mare viteză (16 kB şi timp de 
acces de 65 ns) a crescut viteza de acces la informaţii, pentru o memorie 
principală de 8 MB şi un timp de acces de 650 ns. 
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1.1.9. Caleulatoare vectoriale pipeline 


În anul 1972 Seymour Cray a părăsit CDC pentru a înfiinţa propria sa: 
companie, Cray Research Ine., cu scopul de a realiza cel mai rapid cal- 
culator din lume. În timpul extraordinar de scurt de numai 4 ani a fost 
proiectat şi construit CRAY-1 primul exemplar fiind livrat Laboratorului 
ştiinţific Los Alamos în 1976. CRAY-1 (Russell 1978, Dungworth 1979) 
urmează, linia de evoluţie a calculatoarelor 6600 şi 7600. Are 12 unităţi 
funcţionale, toate pipeline, o perioadă a ceasului de 12,5 ns şi o memorie 
cu 16 blocuri a cîte un milion de cuvinte (ciclu de 50 ns). Principala inova- 
ţie o constituiau cele 8 registre vectoriale, fiecare capabil de a memora 
64 numere în virgulă mobilă de 64 biţi, ca şi un set de 32 instrucţiuni 
pentru manipularea. şi efectuarea de operaţii cu vectori. Trei unităţi funcţio- 
nale erau rezervate pentru operaţii vectoriale, iar trei partajate de instruc- 
ţiuni scalare. CRAY-1 a fost denumit calculator vectorial, deoarece poseda 
instrucțiuni pentru operaţii cu vectori. A fost priinul calculator vectorial 
pipeline cu succes comercial şi rămîne de departe cu cel mai mare succes ; 
pînă la sfîrşitul anului 1984 s-au vindut 88 CRAY-1 şi CRAY X-MP. 
CRAY-1 atinge în mod obișnuit viteze de 130 Mflop/s (milioane de operaţii 
în virgulă mobilă pe secundă) pentru probleme adecvate (de exemplu, 
înmulţirea matricelor). 

Principalele neajunsuri ale proiectului CRAY-1 original au fost (a) 
posibilităţi de I/E inadecvate , (b) viteza de transfer mică între memoria 
operativă și registrele vectoriale (lărgimea de bandă mică) și (c) absenţa 
unei instrucțiuni hardware de dispersare/grupare. Acestea au determinat 
performanţe, în mod semnificativ mai mici decit cele teoretic posibile, 
peniru o serie de probleme reale. CRAY-1S, anunţat în 1979, a rezolvat 
primul neajuns prin introducerea unui Subsistem de I/E care elibera 
CPU de gestiunea operaţiilor de I/E şi a zonelor de memorie tampon, 
asociat calculatorului front-end, discurilor şi altor dispozitive periferice. 
Subsistemul este compus din 2 pînă la 4 procesoare de 1/E și o memorie 
tampon de 1/2 sau 1 MB. Subsistemul de ]/E are un canal direct la memo- 
ria operativă ce lucrează cu o viteză de transfer de 850 mil. biţi pe se- 
cundă. De asemenea, CRAY-IS are memoria principală mai mare, de 4 
Mcuv. în loc de 1Meuv., în același spaţiu nat obținută prin înlocuirea ci- 
purilor de 1 Kb cu cele de 4 Kb. 

Următorul pas important în evoluţia seriei de calculatoare CRAY-1 
a fost anunţul lui CRAY X-MP în 1982. Acesta este un proiect multiproce- 
E ce poate fi descris ca 2 calculatoare CRAY-1 cu o memorie comună de 
2 sau 4 Mcuv. Fiecare CPU are + porturi în memorie, unul pentru I/E şi 3 
pentru utilizare de către registrele vectoriale, crescind astfel lărgimea 
de bandă maximă pentru transferul datelor de 8 ori, ceea ce rezolvă pro- 
blema lărgimii de bandă mici (b). În absența- conflictelor de acces lazun 
bloc de memorie, două fluxuri vectoriale de intrare şi un flux de ieșire pot 
accesa acum memoria simultan în ambele CPU și fiecare poale alimenta 
un pipeline aritmetic la viteza lui maximă. Cele 2 CPU pot lucra cu părți 
diferite ale problemei sau cu probleme independente (job-uri). Sincroniza- 
rea, se realizează fie prin locaţii ale memoriei operative, fie printr-un set 
de registre speciale. Un nivel înalt de integrare (16 poţi /cip, în compara- 
ţie cu 4 sau 5 porţi/cip la CRAY-1) permite celor 2 CPU să încapă în acelaşi 
spaţiu fizic ca și CRAY-1. Memoriile secundare de mare viteză sînt dis- 
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pozitive SSD (solid state device), formate din pînă la 32 Mcuv, în 64 
blocuri de memorie MOS volatilă. Viteza de transfer între SSD şi memoria 
operativă este de 1250 MB/s. Astfel, versiunea inițială a lui CRAY 
X-MP a eliminat primele două inconveniente ale lui CRAY-1. 
În anul 1984 s-a anunţat un model cu 4 CPU care elimină gi ultima pro- 
blemă, prin includerea unei instrucţiuni hardware corespunzătoare. Cel 
mai avansat în gama sa, CRAY-X-MP, atinge o performanță maximă de 
840 Mflop/s şi are o memorie operativă bipolară ECL de 8 Mcuv. (64 biţi) 
organizată în 64 blocuri cu acces paralel. CRAY X-MP este descris în deta- 
liu în capitolul 2 ($2.2). 

În 1981 Seymore Cray a demisionat din postul de preşedinte al firmei 
Cray Research pentru a-și dedica întregul timp dezvoltării calculatorului 
CRAY-2 şi a altor proiecte de viitor. Noua tehnologie de imersiune în li- 
chid, folosită la CRAY-2, a fost experimentată în 1981 (Cray 1981). Ba 
constă în scufundarea întregii maşini într-o baie de lichid inert, fluorocar- 
bon, un lichid de răcire. Cind carcasa este un container transparent — creîn- 
du-se așa-numitul calculator „globul cu pestele de aur” — se pot observa 
efecte foarte frumoase datorită turbulenței din lichid. Eficienţa sporită a 
răcirii permite utilizarea unei densități mai mari de componente și un 
CPU mai mic. Întreaga maşină ocupă un cilindru de 1,2 in înălțime şi 
1,4 m în diametru. Plăcile cu circuite sînt plasate după cele 3 dimensiuni, 
ceea ce determină o lungime maximă a firelor de 16 inch, în comparaţie 
cu plasarea Di-dimensională ši lungimea firelor de 1,2 m la CRAY-1.CRAY-2 
este proieciat să aibă pină la 4 CPU şi o perioadă a ceasului de 4ns. 
Dacă cele două unităţi pipeline în virgulă mobilă (+, x) ale fiecărui 
CPU lucrează simultan, atunci la fiecare nanosecundă se termină 2 ope- 
raţii aritmetice, ceea ce înseamnă o viteză de 2 Gflop;s. La fel ca la CRAY 
X-MP, noi CPU vor putea fi adăugate la maşinile ulterioare. Fiecare CPU 
are o arhitectură similară lui CRAY-1, dar includerea unei memorii locale 
de 16 kcuv. pentru rezultate intermediare face masina incompatibilă cu 
seria CRAY-1 la nivelal codului maşină. CRAY-2 va folosi sistemul de ope- 
rare UNIX, iar adresele pe 32 biţi asigură un spaţiu de adresare total de 
256 Mcuv. Maşini CRAY-2 prototip, cu 1 CPU și memorie de 16 Mcuv. 
au fost livrate la NMFECC Livermore şi Universitatea Minnesota în 1984/5, 
iar trei maşini cu 4 CPU au fost vindute în 1985, inclusiv una pentru 
NASA Ames Research Laboratory, cu 256 Mcuv. În anul 1986 s-au reali- 
zat 4 instalări cu 4 CPU şi fie 64, fie 256 Meuv. de memorie. În Europa 
a fost comandat primul CRAY-2 în 1985 pentru landul Baden-YWurtem- 
berg, urmînd să fie instalat la Universitatea din Stuttgart. În 1987 au 
mai fost instalate CRAY-2 la Ecole Polytechnique din Paris, şi la UKAEA 
Harwell Laboratory în Marea Britanie. Iniţial, CRAY-2 va folosi aceleași 
circuite logice cu 16 porţi ca şi CRAY X-MP. Probabil, următorul pas va 
fi folosirea circuitelor pe bază de arseniură de galiu, care ar permite re- 
ducerea perioadei ceasului la aproximativ 1 ns. Această maşină, planificată 
pentru 1990, se va numi, probabil, CRAY-3. Va avea 16 procesoare, o 
memorie comună de 1 Genv. şi o performanţă maximă de 15 Gflop/s. 
CRAY 2 este descris în detaliu în $2.2.7. 

Alte două calculatoare vectoriale pipeline CDC-STAT 100 şi TIASC 
{Theis 1974, Hockney 1977) au origini mai vechi decit CRAY-1 STAR 
100 (Hintz şi Tate 1972) a fost conceput prin 1964 ca procesor vectorial 
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cu un set de instrucţiuni bazat pe limbajul APL (Inverson 1962). Ar fi 
trebuit să realizeze 100 iiflop/s pentru vectori de dimensiuni mari care 
interveneau în multe probleme științifice ale Laboratorului Lawrence 
Livermore (LLL). În 1967 a început proiectarea. După o perioadă de geg- 
tare de 6 ani a devenit operațională prima maşină, iar în anii '74—'75 au 
fost livrate două bucăţi către LLL. Existau însă "două dezavantaje ma- 
jore : unul tehnologic și unul care ţinea de proiectul propriu-zis, care au 
dus la dezvoltarea "ui lentă. Iar cînd a devenit disponibil, STAR 100 a 
suferit datorită proiectării sale la începutul anilor °60. Memoria cu ferite 
cu un ciclu de 1,2 microsec. a fost depășită de memoriile cu semiconductori, 
iar perioada ceasului de 80 ns este lentă în comparaţie cu mașinile simi- 
lare disponibile la mijlocul anilor 70. Mai mult, cele mai bune calculatoare 
organizate serial, ca CDC 7600 și IBM 360/195, aveau unităţile aritmetice 
scalare mai rapide. STAR 100 depășește aceste caiculatoare doar pentru 
operaţii cu vectori de sute sau mii de componente. in consecință,s-au 
vindut numai 4 mașini (2 pentru LLL, una pentru NASA) sau au fost reţi- 
nute de companie ca o facilitate pentru reţeaua de comunicaţii 
CYBERNET. Nici un STAR 100 nu a fost vindut unui beneficiar obisnuit. 

Apoi, STAR 100 a fost reproiectat în tehnologie LST cu memorii secmieon- 
ductoare și oferit pe piaţă în 1919 ca CYBER 203E (Kascic 1979), Această 
maşină „rebotezată: CYBER 205, este un adversar serios pentru CRAY-1 

De aceea o vom considera ca al doilea exemplu de arhitectură pipeline 
şi o vom traia în $2.3. CYBER 205 diferă de CRAY-I în procesarea 
instrucţiunilor vectoriale, deoarece nu are registre vectoriale, conține mai 
multe pipeline de uz general, spre deosebire de cele specializate ale lui 
CRAY-1. Primul sistem a fost livrat Ofeiului meteorologie al Marii Bri- 
tanii în 1981. 

În septembrie 1983 CDC a fondat o companie separată, ETA Systems 
Inc., pentru a accelera dezvoltarea ulterioară a superealculatoarelor sale. 
Control Data a păstrat 40% din proprietatea firmei ETA Systems, care a 
anunţat ca obiectiv realizarea unui calculator cu viteză de 10 Gflop/s, 
ETAY, Păstrind arhitectura lui CYBER 205, acest calculator este de 3 
pînă la 5 ori mai rapid ca acesta, grație celor 8 procesoare. Astfel, com- 
patibilitatea, cu întregul soft dezvoltat pentru CYBER 205 se păstrează. 
Viteza, suplimentară și nivelul mai mare de integrare se obţin datorită 
folosirii tehnologiei CMOS răcită la temperatura azotului lichid (—209C). 
Un cip CMOS produs de Honeywell, cu pînă la 20000 porţi disipă 2 waţi, 
în comparaţie cu cei 4 waţi disipaţi de circuitele ECL cu 250 porţi folosite 
la CYBER 205. Astfel, unitatea centrală va ocupa numai 1,5 m pătrați. 

ETA” este descris în "detaliu în $2.3.7. 

Proiectul TIASC (Watson 1972, Ibbett 1982) a demarat în 1966 cu 
scupul de a realiza un sistem pentru rezolvarea problemelor đe analiză 
a datelor seismice, implicînd utilizarea-pe scară largă a transformatei Fou- 
rier. Proiectul se baza pe 1,2 sau 4 pipeline de uz general identice, fiecare 
capabil de a executa instrucţiuni elementare cu operanzi veetoriali. Ins- 
trucțiunile erau interpretate de una sau două unități procesoare. Acesta 
este un alt exemplu de sistem multjprocesor. Memoria cu semiconductori 
era formată din 8 blocuri cu un ciclu de 320 ns. Teoretic, la o funeţio- 
nare optimală a celor 4 unităţi pipeline, s-a obţinut, o viteză de 50 Mflop/s. 
Numărul unităţilor aritmetice pipeline și al celor de interpretare a jns- 
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trucţiunilor era opțional. Primul TIASC a devenit operaţional în 1973, - 
iar de atunci au mai fost construite încă 6 bucăţi, cele mai multe folosite 
de companie sau de asociații ei. Cele mai importante vinzări au fost o 
configuraţie cu 4 unităţi pipeline pentru Laboratorul geofizice de dinamica 
fluidelor de la Princeton şi o configuraţie cu 2 unităţi pipeline pentru 
Laboratorul de cercetări navale din Washington. După instalarea celor 6 
sisteme, TI a sistat producția. Și acest calculator a suferit, ca și STAR 
100, consecinţele unor unităţi scalare lente în comparaţie cu CDC 7600. 

Prima companie japoneză care s-a lansat în domeniul superealcula- 
toarelor a fost Fujitsu, care a anunţat în anul 1982 calculatoarele vecto- 
riale pipeline FACOM VP-100 şi VP-200 (Miura și Uchida 1984). În mod 
evident aceste mașini au fost proiectate peniru a combina caracteristicele 
cele mai avantajoase ale calculatoarelor CRAY-1 şi CYBER 205. Ele 
posedă unităţi scalare şi vectoriale separate, care pot lucra simultan, ca 
la CYBER 205; pe de altă parte, unitatea vectorială este compusă din 
registre ca la CRAY-1. Există unităţi pipeline separate pentru adunare/ 
operaţii logice, înmulţire și împărțire, ce lucrează cu datele păstrate 
în memoria registrelor vectoriale (64KB). O caracteristică, 
unieă a acestor mașini este posibilitatea reconfigurării memoriei vectoriale 
în mod dinamic sub controlul programului. Se pot configura fie 8 registre 
vectoriale a cite 1024 elemente, fie 256 registre a 32 elemente, fie prin crice 
factor de 2 între aceste limite. Între registrele vectoriale și memoria opera. 
tivă, există 2 unităţi pipeline pentru încărcare/memorare (în comparaţie 
cu 1 la CRAY-1 și 3 la CYBER 205 și CRAY X-MP). Capacitatea maximă 
a memoriei operative este de 256 Mcuv. (de 8 ori mai mult fată de CYBER 
205 sau CRAY-1). FACOM VP posedă instrucțiuni de mascare, similare 
celor de la CYBER 205, ca şi.o instrucțiune hardware de adresare vecto - 
rială indirectă (instrucţiuni de dispersare/grupare), prezentă la CYBER: 
205, dar absentă la CRAY-1. Unitatea vectorială are o perioadă a ceasu- 
lui de 7,5 ns ce determină o viteză maximă de calcul de 533 Mflop/s la 
VP-200. Această viteză ca şi capacitatea memoriei siut înjumătăţite la 
VP-100. Prima livrare a constat dintr-un VP-100 la Universitatea din 
Tokyo, la sfîrşitul anului 1983. În cursul aceluiași an au fost anunțate încă 
două calculatoare vectoriale pipeline japoneze, HITACHI $-810 model 
10/model 20 (630 Mflop/s maximum) şi NEC SX-1/SX-2 (maximum 1300 
Mflop/s). Toate aceste calculatoare japoneze sint descrise pe larg în capito- 
lul 2, §2.4. 

IBM a anunțat în anul 1985 (9 ani după livrarea primului CRAY-1) 
prima maşină pentru calculul vectorial, ca parte a serici System/370. 
Aceasta este un multiprocesor IBM 3090 scalar, cu o performanță maximă 
de aproximativ 5 Mflop/s, la care pot fi adăugate opțional facilităţi vec- 
toriale care cresc de aproximativ 3 sau 4 ori performanța scalară. Acest 
raport între viteza vectorială şi cea scalară este mult mai mic decit cel 
furnizat; de mașinile concurente, dar este considerat de IBM ca cel mai 
economic. Ficcare procesor al sistemului 3090 poate primi o singură facili- 
tate vectorială, iar numărul maxim actual (1987) de procesoare este 6, 
care poate însă creşte. Deci, IBM 3090-VF realizează atît prelucrări vec- 
toriale (SIMD), cît şi multitasking (MIMD) prin utilizarea procesoarelor 
în mod independent. Fiecare procesor 3090 are o memorie cache de 64 KB, 


folosită atit de unitatea scalară, cât şi de cea vectorială pentru instrucţiuni 
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şi date. Modelul 400, cu 4 procesoare, are o memorie operativă de 128 MB 
cu posibilitatea extensiei la 256 BM. Fiecare facilitate vectorială are 16 
registre vectoriale, fiecare cu capacitatea de 128 numere pe 64 biţi. Ciclul 
de 18,5 ns corespunde la o performanţă maximă de 54 Mflop/s, pe pipe- 
line. Unitatea vectorială are unităţi pipeline independente pentru înmulţire 
şi adunare, ceea ce determină o performanță teoretică maximă de 108 
Milop/s. Aceste valori pot fi însă atinse numai pentru un cod optimizat, 
care păstrează datele necesare în registrele vectoriale sau în memoria cache 
timpul cel mai îndelungat, minimizind astfel timpul de acces la memoria 
centrală sau extinsă, care reprezintă o serioasă strangulare în sistem. De 
exemplu, viteza obţinută pentru o singură operaţie vectorială diadică în 
FORTRAN (vezi $1.3.3) cu toate datele în memoria cache este de 
13 Miflop/s. Dacă datele se află în memoria operativă, această viteză se 
reduce la 7,3 Mflop/s pentru un pas între elementele succesive ale vectoru- 
lui de 1 (în comparaţie cu 70 Mflop/s la CRAY X-MP, vezi $2.2.6) şi la 
1,7 Mflop/s pentru un pas de 8. 


1.1.4. Caleulaturul Solomon și ce a urmat după el 


Un moment important în istoria paralelismului l-a reprezentat, fără 
îndoială apariţia, lucrării lui Slotnick et al. (1962) intitulată „The SOLO- 
MON Computer”. Principiile acestui calculator au fost descrise şi de Gre- 
gory şi McReynolds (1963) şi constituie o aplicare a ideilor lui Unger 
(1958). Acronimul înseamnă ,,Simultaneous Operation Linked Ordinal 
MOdular Network” şi descrie un masiv bidimensional de 32 x 32 elemente 
procesoare, fiecare cu o memorie de 128 cuvinte a 32 biţi şi o unitate arit- 
metică ce lucrează serial pe bit sub controlul unei unități de comandă 
unice. Contrar evoluţiei calculatoarelor seriale spre calculatoare vectoriale 
pipeline conceptul calculatorului SOLOMON a însemnat o modificare 
radicală în arhitectura calculatoarelor, cu o influenţă substanţială asupra 
cercetării şi proiectării. Calculatorului SOLOMON nu a fost niciodată, 
construit așa cum a fost descris în lucrarea din 1962, dar este punctul de 
pornire atît pentru ILLIAC IV, Burroughs PEPE, cît şi a modelelor 
STARAN (Goodyear Aerospace) şi ICL DAP, denumite adeseori procesoare 
asociative. Vom prezenta aceste calculatoare separat. 

Departamentul Apărării al S.U.A. a propus Universităţii Illinois în 
1966 un contract pentru proiectarea unui calculator similar lui SOLOMON, 
care a devenit cunoscut mai tirziu ca ILLIAC IV. Proiectul original este 
descris de Slotnick (1967) în altă lucrare de mare rezonanţă, „Un- 
conventional Systems” și de Barnes et al. (1968) şi McIntyre (1970). Ini- 
țial, sistemul era format din 4 subsisteme, fiecare cu o unitate de comandă 
pentru execuţia unui flux unic de instrucțiuni de către 64 elemente pro- 
cesoare în virgulă mobilă. Fiecare element procesor conţinea 2000 cuvinte 
de 64 biți înregistraţi pe peliculă de film, iar în fiecare bloc elementele 
procesoare erau conectate într-un aranjament bidimensional 8 x 8. Cele 
4 subsisteme (blocuri) trebuiau conectate cu un bus de I/E paralel și cu 
acces la un disc magnetic de capacitate mare de unde se citeau job-urile 
şi unde se scriau rezultatele. Deoarece se considera că fiecare element pro- 
cesor execută o operaţie în virgulă mobilă în 240 ns, s-ar fi putut obţine 
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o viteză de 1 Gflop/s. Deşi nu s-a construit decit un subsistem, iar viteza 
atinsă a fost de 50 Milop/s, producerea lui ILLIAC IV a avut o influenţă 
considerabilă asupra tehnologiei calculatoarelor şi arhitecturii. Principiile 
de funcţionare ca şi unele aplicaţii sînt tratate în Feierbach și Stevenson 
(1979a) şi Slotnick (1971). 

Povestea construirii calculatorului ILLIAC 1V este descrisă de Falk 
(1976) în articolul său „Reaching for the Gigaflop”. Această maşină este 
prima care a folosit circuite de memorie cu semiconductori (256 porţi 
logice în tehnologie bipolară) pentru memoria centrală, după ce s-a ajuns 
la concluzia că nu este spațiu suficient pentru memoria pe pelicula de film. 
S-a intenționat să se realizeze 20 porţi logice pe circuit (MSI), dar nu 
s-au realizat decit 7 (SSI). Rezultatul s-a datorat alegerii tehnologiei ECL 
în locul TTL. De asemenea, la ILLIAC IV s-au introdus plăcile cu 15 stra- 
turi şi cu acest prilej şi metoda de conectare adecvată. Producerea lui 
ILLIAC IV, redus la un subsistem a fost cedată firmei Burroughs, iar cal- 
culatorul a fost livrat în 1972 Centrului de cercetări Ames al NASA. 
Dar, abia în 1975 s-au oferit servicii utilizabile şi aceasta pentru o perioadă 
a ceasului de 80 ns (în loc de 40 ns) cu încetinirea corespunzătoare a tuturor 
operaţiilor. 

Dacă se ia în considerare faptul că prețul producerii lui ILLIAC IV 
a fost de 4 ori mai mare decit cel propus inițial, iar performanţele de 10 
ori mai mici, acesta a reprezentat un eșec. Totuşi, influenţa sa a fost pro- 
tundă şi probabil în anii '80 vom vedea arhitecturi de calculatoare similare, 
mai ales că progresele tehnologice le fac posibile. Ca şi alte proiectie majore, 
ILLIAC IV a depășit posibilităţile tehnologice ale timpului său. Pentru 
acest calculator s-a dezvoltat un soft considerabil, inclusiv 4 limbaje care 
pot exprima paralelismul calculatorului şi noi algoritmi (vezi, de exemplu 
Kuck 1968). Limbajele noi proiectate sint : TRAN QUIL, similar ALGOL- 
ului (Aber et al. 1969), GLYPNIR (Lawrie et al. 1975), ACTUS, simi- 
lar PASCAL-ului (Perrott 1978) și CFD FORTRAN (Stevens 1975). 

Compania Burroughs a jucat un rol major în dezvoltarea procesoare- 
lor paralele de tip masiv. Începutul l-a marcat Illiac IV, pentru care 
Burroughs a avut contract în perioada 1969—1973, a continuat cu proceso- 
rul paralel PEPE pentru armata americană, (livrarea începind cu 1976) 
şi a culminat cu anunţarea în 1977 a calculatorului BSP pentru piaţa ştiin- 
ţifică, un concurent pentru proiectele pipeline CRAY-1 şi CYBER-205. 
Vom descrie în continuare relaţiile dintre PEPE, BSP şi ILLIAC IV. 

ILLIAC IV a fost proiectat pentru rezolvarea ecuațiilor diferențiale 
parțiale și poate ti descris ca un masiv 8x8 de elemente procesoare în vir- 
gulă mobilă pe 64 biţi, 4-conex ce execută același flux de instrucțiuni in- 
terpretate de o unitate de comandă. PEPE, Parallel Elemeni Processor 
Ensemble, a fost proiectat, pe de altă parte, pentru conducera unui sis- 
tem de apărare antibalistic format din instalații RADAR şi lansatoare de 
rachete (Berg et al. 1972, Cornell 1972, Vick și Cornell 1978). PEPE își 
are originile în activităţile de la Laboratorul Bell, Whippany, privind stu- 
diul memoriilor distribuite adresate prin conţinut (Lee și Paull 1963) com- 
binate cu procesarea în virgulă mobilă (Crane și Githens 1965) ce au culmi- 
nat în 1972 cu realizarea maşinii experimentale PEPE TC cu 16 elemente 
procesoare pe 32 biţi (Crane et al., 1972). Sistemul PEPE construit de Bu- 
rroughs este format din 288 elemente procesoare slab interconectate, fie- 
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care conţinind 3 procesoare (unul pentru recepţionarea semnalului 
RADAR, unul pentru calcul şi unul pentru emisia semnalelor de comandă) 
conduse de 3 unități specializate, cite una pentru fiecare procesor. Cele 3 
unităţi de comandă erau conectate la 3 canale de I/E standard ale unui 
calculator CDO 7600 care activa ca sistem gazdă. Fiecare ţintă identificată 
de sistem este urmărită de un element procesor şi deoarece nu există 
legături între ţinte (rachete), nici elementele procesoare nu erau inter- 
conectate direct. Comuniecaţiile necesare între elementele procesoare se 
realizau via memoria unităţii centrale. Deoarece sistemul era nestructu- 
rat s-a ales termenul de ansamblu. Cum fiecare element procesor executa 1 
Mtlop/s, întregul sistem putea realiza maxim 288 Milop/s. Estimări mai 
realiste pentru problemele practice au condus la cifra de 100 Mflop/s (Vick 
şi Cornell 1973). O versiune cu 36 elemente procesoare a fost livrată Cen- 
trului de cercetări avansate BMDATC din Huntsville, Alabama, în 1976. 

Unul din inconvenientele legăturilor limitate de transmisie între pro- 
cesoarele 4-conexe este timpul mare necesar pentru stabilirea unei co- 
municaţii între cele 64 elemente procesoare şi cele 64 blocuri de memorie în 
masiv (ILLIAC IVY). Burroughs a redus în varianta comercială, BSP (Jen- 
sen 1978, Austin 1979), numărul procesoarelor la 16 şi numărul blocurilor 
de memorie la 17. Numărul mai mic face posibilă stabilirea conexiunilor 
prin intermediul unei reţele de aliniere (,,alignment network”) între orice 
procesor şi orice bloc de memorie. Alegerea unui număr prim de blocuri 
de memorie diferit de cel al procesoarelor, permite utilizarea algoritmilor 
de mapare care reduce numărul conflictelor de acces la memorie ce intervin 
în manipularea matricelor. Elementele procesoare sînt organizate serial 
cu un timp de execuţie a adunării sau înmulţirii de 320 ns pentru obține- 
rea a 16 rezultate (unul în fiecare element procesor). Suprapunerea atentă, 
a operaţiilor de citire, scriere şi aritmetice împreună cu asigurarea legături- 
lor complete între elementele procesoare şi blocurile de memorie elimină 
cele mai multe strangulări ; de aici atingerea a 50 Milop/s pentru rezol- 
varea celor mai multe probleme. BSP este analizat în detaliu în paragraful 
$3.4.3., deşi a fost retrag de pe piață în 1980, înainte de a se vinde cel 
puţin un exemplar. 

ARPA si NASA au fondat Institutul de calcul avansat (IAC) pentru 
realizarea lui ILLIAC IF, iar în 1977 acelaşi institut a publicat propunerile 
pentru realizarea unei maşini denumită PHOENIX (Feierbach și Steven- 
son 1976b) care să înlocuiască în anii '80 calculatorul ILLIAC IV. IAC 
a stabilit necesitatea, realizării unei maşini de 10 Gflop/s pentru a rezolva 
probleme de aerodinamică. Calculatorul PHOENIX poate fi descris ca 
format din 16 ILLIAC IV, fiecare executind un flux unic de instrucţiuni. 
Dacă fiecare element procesor produce un rezultat la 100 ns (o presupu- 
nere rezonabilă pentru tehnologia anilor '80) cele 1024 elemente procesoare 
vor executa 10 op/secundă. 

NASA a mai încheiat 2 contracte de cercetare cu CDC și Burroughs 
pentru mașini care să înlocuiască calculatorul ILLIAC IV şi care să consti- 
tuie sisteme de simulare aerodinamică numerică (NASF) pentru mijlocul 
anilor '80 (Stevens 1979). Proiectul CDC se bazează pe un CYBER 205 
cu 4 unități pipeline ce lucrează sincronizat, plus a cincea unitate pipeline 
ca rezervă. Fiecare unitate pipeline poate produce un rezultat pe 64 biţi 
sau 2 pe 32 biţi la fiecare 8 ns. Oricum, fiecare rezultat poate fi produs prin 
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3 operaţii, ceea ce duce la o viteză de 3 Gilop/s. Mai există în sistem şi un 
procesor scalar rapid cu un tact de 16 ns. Proiectul lui Burroughs poate fi 
privit prin contrast ca o versiune actualizată a arhitecturii BSP, cu 512 
elemente procesoare conectate la 521 blocuri de memorie (numărul prim 
superior cel mai apropiat). Spre deosebire de ILLIAC IV, fiecare element 
procesor are propria unitate de execuţie a instrucţiunilor. Fluxul de ins- 
trucțiuni poate fi executat de un element procesor în secvenţe diferite ce 
depind de anumite condiții specifice datelor pe care le prelucrează unitatea, 
respectivă. Cu un timp de execuţie a adunării în virgulă mobilă de 240 ns, 
a înmulţirii în 360 ns şi 512 elemente procesoare în sistem se poate atinge 
1—2 Gtlop/s. S-a propus utilizarea: tehnologiei ECL, cu o perioadă a tac- 
tului de 40 ns. 

Proiectul iniţial al calculatorului SOLOMON (Slotnick et al. 1962) 
prevedea un masiv de 32 X 32 procesoare pe un bit, fiecare cu o memorie 
locală de 4096 biţi, care executau operaţii aritmetice pe 1024 numere în 
paralel, bit cu bit. Această descriere se apropie şi de modelul pilot ICL 
DAP, iniţiat în 1972 şi lansat în producţie în 1976 (Flanders et al. 1977, 
Reddaway 1979, 1984). Primul exemplar produs a fost instalat la colegiul 
QUEEN MARY în 1980. Acest sistem cuprindea un masiv de 64x64 
elemente procesoare care formau un modul de memorie pentru calculatorul 
gazdă IOL 2980. Ca şi la SOLOMON şi ILLIAC IV, elementele procesoare 
sint 4-conexe. DAP-ul original folosea integrarea pe scară redusă, cu 16 
elemente procesoare pe o placă. În $3.4 se va analiza în detaliu arhitec- 
tura, sistemului ICL DAP. În octombrie 1986 s-a fondat; compania Active 
Memory Technology (AMT) pentru a dezvolta în continuare conceptul 
DAP. Ea a produs procesoarele VLSI DAP 500 ca opţiune la staţiile de 
lucru ($ 3.5). 

O caracteristică importantă a proiectului ICL DAP este că logica 
unui element procesor și memoria sa se află pe aceeaşi plachetă. O dez- 
voltare posibilă şi atractivă ar fi realizarea unui cip VLSI care să includă 
aceste circuite. În viziunea lui von Neumann memoria și unitatea centrală 
sînt atit conceptual cît și fizic situate în unităţi diferite (chiar sertare dife- 
rite), ceea ce poate duce la strangulări severe dacă traficul dintre ele nu 
este adecvat. La ICI, DAP partea de execuţie (logica) este distribuită în 
memorie, adiacent informaţiilor de prelucrat. Tehnologia VLSI care per- 
mite implementarea a 10 porţi/cip determină ca distribuţia logicii în me- 
morie să fie o propunere practică. Într-adevăr, aceasta a devenit aproape 
o necesitate datorită problemelor legate de interconectarea cipurilor. De 
exemplu, AMT DAP 510 este un masiv 32 x32 cu 64 elemente procesoare 
pe un cip VLSI. 


Stone (1910) a propus un calculator cu logica de comandă la nivelul 
memoriei, adică fiecare segment de 16 KB de memorie cache a sistemului 
IBM 360/85 ar fi trebuit să aibă funcții logice specializate, de unde execuţia 
operațiilor în paralel pe 16 segmente. Acest concept poate fi folosit atit 
ca memorie atociativă, cît și pentru execuţia de operaţii aritmetice simple 
pe 16 elemente în paralel. S-a făcut propunerea, într-un sens limitat, 
pentru un DAP cu 16 elemente procesoare fără conexiuni între ele. Kautz 
(1971) a propus un calculator cu logică în memorie mai integrat, denumit 
Augmented Content Addressed Memory (ACAM) cu circuite specializate 
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pentru sortare, inversarea matricelor, transformata Fourier rapidă, corelaţii 
ete. Circuitele LSI urmau să fie masive celulare cu logică universală ce 
implementau în hard algoritmi pentru calcul paralel : transformata Fourier 
rapidă (Pease 1968) şi inversarea matricelor (Pease 1967). 


1.1.5. Calculatoare ortogonale și asociative 


O altă lucrare de rezonanţă în istoria paralelismului este cea a lui 
Shooman (1960) denumită „Parallel Computing with Vertical Data”, 
în care descrie organizarea unui calculator ortogonal” (vezi gi Shooman 
1970). Unităţile aritmetice ale unui calculator serial convenţional își extrag 
datele din memorie sub forma cuvintelor (de exemplu, numere în virgulă 
mobilă de 32 biţi), iar prin 1960 cele mai multe calculatoare ştiinţifice 
procesau biții unui cuvint în paralel. O astfel de procedură poate fi 
denumită serial pe cuvînt și paralel pe biţi. Shooman a recunoscut că multe 
probleme ce implică regăsirea informaţiilor necesită testarea numai citorva, 
biţi ai cuvîntului şi astfel prelucrarea serială pe cuvînt nu este eficientă. 
Shooman a propus ca memoria să fie accesată, şi în direcţie ortogonală. 
adică de la fiecare cuvînt bitul de același rang (bit slice). Dacă biții memoraţi 
sînt interpretaţi ca un masiv bidimensional, cu biții cuvîntului k formînd 
linia orizontală k, atunci biții de rang 1 ai tuturor cuvintelor (bit slice 1), 
formează coloana 1. În calculatoarele ortogonale fiecare element procesor 
corespunde la un cuvînt de memorie și, astfel, biții ce formează un bit 
slice pot fi prelucraţi în paralel. Acest procedeu este denumit procesare 
serială pe bit şi paralelă pe cuvint. Calculatorul ortogonal asigură o „uni- 
tate orizontală” pentru realizarea operaţiilor serial pe cuvint, paralel pe 
bit și o „unitate verticală” separată pentru operaţii serial pe bit, paralel 
pe cuvint. 

Ideea testării în paralel a tuturor cuvintelor a condus la realizarea 
memoriilor asociative sau adresabile prin conținul, la care o informație- 
cuvînt este identificată în memorie printr-o secvenţă, de biți din compo- 
nența sa care satisface un criteriu de căutare, mai degrabă decit prin 
adresa fizică. La o memorie asociativă pură, informațiile nu pot fi accesate 
prin adresa fizică din memorie. Totuşi, multe sisteme asigură ambele 
forme de adresare. Multitudinea sistemelor ce se bazează pe memorii aso- 
ciative au fost analizate de Thurber şi Wald (1975) şi Yau gi Fung (1977), 
iar cititorul mai poate consulta monografiile lui Foster (1976) şi Tharber 
(1976). Noi vom descrie aici numai 2 exemple, OMEN şi STARAN care 
sînt deja comercializate. 

Seria OMEN (Orthogonal Mini EmbedmeNt) a reprezentat implemen- 
tarea comercială a conceptului de calculator ortogonal, cu aplicaţii la 
analiza semnalelor. Aceste calculatoare sînt descrise de Higbie (1972). 
Seria OMEN-60 folosea un PDP-11 ca unitate aritmetică orizontală şi 
un masiv de 64 elemente procesoare pentru unitatea verticală asociativă, 
care lucra mai degrabă byte slice, decit bit slice, Opţional se asigură fie o 
unitate aritmetică serială pe bit şi 8 biţi de memorie pentru fiecare ele- 
ment procesor, fie o unitate hardware în virgula mobilă cu 8 registre de 
16 biţi şi 5 registre de mascare. Logica implementată permitea inversarea 
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ordinii octeţilor într-un slice sau, realizarea conexiunii „perfect shuffle” 
sau „barrel shift”. 


“Un alt produs al conceptului de calculator ortogonal este STARAN 
(Batcher 1979) produs de Goodyear, proiectat între anii 1962 şi 1972 şi 
din care s-au vindut pină în 1976 4 bucăți. Modelul STARAN standard 
este format din 4 masive a cite 256 elemente procesoare pe un bit şi me- 
morie de la 64 KB la 64 MB. Conducerea sistemului era asigurată de un 
PDP 11. Spre deosebire de SOLOMON, STARAN nu are memoria distri- 
buită procesoarelor ; între elementele procesoare şi memoria centrală este 
realizată o reţea programabilă, denumită FLIP. Un slice de 256 biţi 
este extras din memorie sub controlul programului într-o modalitate de 
căutare după pattern. Patternul selectat poate trata, de exemplu, memoria 
ca un masiv multidimensional cu un număr variabil de dimensiuni sau 
extrage datele în modul cerut de transformata Fourier rapidă sau alţi 
algoritmi numerici. Conexiunea între elementele procesoare se realizează 
prin comutarea slice-urilor de 256 biţi la nivelul rețelei. FLIP. ETAFAN, 
ca şi alte calculatoare orientate pe bit, are performanțe mai bune pentru 
operaţii logice sau aritmetice cu numere mici. O aplicaţie particulară este 
prelucrarea numerică a imaginilor, caz în care imaginea este împărţită în 
milioane de pixeli reprezentaţi pe 6—12 biţi. Primul STARAN a fost 
livrat bazei militare ROME AIR FORCE tocmai pentru aplicaţii de prelu- 
crare a imaginilor şi controlul traficului aerian. 

STARAN și DAP au fost reunite în propunerea de către firma Good- 
year Aerospace Corp. a unui procesor paralel masiv (MPP) format 
dintr-un masiv de 132x128 elemente procesoare 4-conexe. Maşina este 
proiectată special pentru prelucrarea imaginilor din satelit, cu o viteză de 
1000000 pixeli/s. Operaţiile cu. numere întregi reprezentate pe 8—12 biţi 
se realizează cu o viteză de cîţiva Gilop/s, iar operaţiile în virgulă mobilă 
pe 32 biţi, la 200—400 Mflop/s. 


1.1.6. Masive de procesoare și procesoare-extensii 


O altă direcţie de evoluţie a calculatoarelor ce implementează parale- 
lism este cea a calculatoarelor specializate, relativ ieftine, proiectate pentru 
prelucrarea masivelor de date, de unde și denumirea de procesoare masiv. 
Observăm că, în acest context, denumirea lor nu înseamnă că aceste calcula- 
toare sint masive bidimensionale de procesoare, dimpotrivă, în cele mai 
multe proiecte se implementează conceptul pipeline. Astfel de calculatoare 
necesită, dar nu întotdeauna, un calculator gazdă, de unde denumirea de 
procesoare-extensii. Domeniile de utilizare sînt analiza semnalelor, a date- 
lor seismice, iar algoritmul cel mai des implementat este al transformatei 
Fourier rapide. Primele sisteme de acest tip au fost minicalculatoarele 
pe 16 biţi care implementau accesul paralel la instrucţiuni şi date. Teb- 
nologia bipolară a permis execuţia a 5 x 104 op/s. Următoarea fază a fost 
marcată de realizarea „unităţilor funcţionale” pentru FFT şi algoritmi 
similari. La aceste unități paralelismul a fost introdus pe scară largă, 
ca de exemplu accesul în paralel la mai multe module de memorie pentru 
programe, date și coeficienți utilizarea mai multor unităţi aritmetice inter- 
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conectate în modul cerut de rezolvarea problemei. Unităţile funcţionale 
erau microprogramate, dar, deşi inflexibile, realizau o creştere a perfor- 
manţelor de 10 ori, atingînd 0,5 Milop/s. 

În 1973 a apărut o nouă generaţie de sisteme masiv cu mai multe 
unităţi procesoare interconectate cu un număr redus de magistrale şi care 
lucrează asincron sub comanda unei unităţi centrale. Se ating 5 Mop/s, 
deși modul asincron creează dificultăţi de sincronizare și nereproducerea 
condiţiilor la verificarea programelor. 

De departe succesul cel mai mare l-a avut sistemul AP-120B al firmei 
FLOATING POINT SYSTEMS care a însemnat o întoarcere la principiul 
funcţionării sincrone (Harte 1979). Această companie a fost fondată în 
1970, a lansat în producţie sistemul menţionat în 1976, iar în 1985 erau 
deja instalate aproximativ 5000 sisteme. AP-120B, care poate fi conectat; 
atît la minicalculatoare cît şi la calculatoarele mari ca gazdă, execută 
operaţiile aritmetice în virgulă mobilă pe 38 biţi în pipeline separate pentru 
adunare şi înmulţire, iar calculul adreselor şi evidența buclelor se reali- 
zează într-o unitate separată pe 16 biţi. 3 memorii (pentru date, tabele și 
programe) şi 2 blocuri (scratch pad) de registre rapide cu acces multiplu 
se află între fiecare memorie şi fiecare unitate aritmetică. Instrucţiunile 
mașinii sînt pe 64 biţi. Astfel, s-a realizat un procesor pentru masive de 
date relativ ieftin. În mod obișnuit s-au atins 5—10 Mflop/s, la un cost 
de aproximativ 50000£ (preţ 1980). Acest sistem este deosebit de avantajos 
pentru industrie, atit ca performanţe cît şi ca preţ. Din multe puncte 
de vedere AP-120B poate îi considerat ca sistemul CRAY-1 al „omului 
sărac”, fiind de 10 ori mai lent dar și de 50 ori mai ieftin. Arhitectura 
de ansamblu a celor 2 mașini este similară, amindouă folosind unităţi 
funcţionale pipeline independente. În 1980 FPS a anunţat FPS-164 
FPS-164 Attached Processor, o versiune pe 64 biţi și memorie operativă 
extinsă la 1,5 Mcuv. Viteza maximă de calcul este de aproximativ 11Mflop/s 
(perioada ceasului de 182 ns), dar memoria operativă mai mare elimină 
necesitatea unui calculator gazdă, de unde şi dispariţia timpilor de astep- 
tare datorită transferurilor lente. În mod obișnuit viteza de calcul variază 
între 1 şi 8 Milop/s, funcţie de problema și maniera de programare. De- 
oarece nu există instrucţiuni vectoriale, se folosesc bucle scalare. În 1985 
s-a anunțat o implementare a lui FPS 164 în tehnologie ECL. Această, 
maşină, denumită FPS 264, este de la 4 la 5 ori mai rapidă decît FPS 164, 
dar identică în rest. 

În anul 1984 s-a anunţat o nouă înbunătăţire a calculatorului FPS 
164, FPS 164/MAX, ceea ce înseamnă Matrix Algebra Accelerator. Această 
maşină foloseşte un FPS 164 ca master, la care se pot adăuga pină la 15 
plăci MAX, fiecare echivalentă cu 2 CPU FPS 164. Se obţine un echivalent 
de 31 CPU FPS 164 ce pot atinge o viteză maximă de 341 Mflop/s. În 
$2.5.7. şi §2.5.8 se tratează despre FPS 164, respectiv FPS 164/MAX. 


1.1.7. Propunerea japoneză pentru generaţia a cincea 
În octombrie 1981 japonezii au şocat comunitatea specialiştilor în 


calculatoare cu perspectiva. lor asupra calculatoarelor anilor 1990 pe care 
le-au denumit calculatoare de generaţia a cincea (Feigenbaum și MeCorduck 
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1983). Ideile lor au fost anunţate lumii la o conferință internaţională des- 
fășurată la Tokyo, şi denumită „Sisteme de calcul de generaţia a cincea” 
(FGCS) (Motooka 1982, 1984). Japonezii consideră ca principale aplicaţii 
pentu calculatoare în anii 1990 sistemele expert şi sistemele bazate pe 
cunoștințe (KBS). Aceste sisteme folosesc o bază cu reguli ce reprezintă 
cunoştinţele unui expert, pentru extragerea unor concluzii și inferenţe 
pe baza unor fapte furnizate interactiv de către utilizator. Comportarea 
sistemului este asemănătoare unei consultaţii între un expert uman și 
cineva care are o problemă ce solicită cunoştinţe de expert. Pînă acum 
aplicaţiile cu succesul cel mai mare s-au înregistrat în domenii limitate, cu 
cunoștințe bine definite, ca de exemplu, diagnoza medicală în domenii 
specifice. Alte exemple se referă la traducerea de texte, întreţinerea mașini- 
lor și analiza economică. Unele firme sînt îngrijorate de pierderea experien- 
ţei unui angajat care se pensionează. O soluţie parţială ar fi înregistrarea 
cunoștințelor sale într-un sistem expert. 

Pentru a se atinge obiectivele de mai sus s-a stabilit că un FOGS 
ar trebui să fie format din trei părţi : o mașină bază de cunoștințe cu o 
memorie de 100 GB; o mașină inferenţială și de rezolvare a problemelor 
care să gestioneze baza de cunoştinţe și să răspundă întrebărilor puse; 
şi o interfață inteligentă pentru comunicarea cu utilizatorul prin sunet şi 
imagine. Ministerul japonez al industriilor și comerţului (MITI) colaborează 
cu 8 firme electronice (inclusiv Fujitsu, Hitachi, NEC, Mitsubishi, OKI şi 
Toshiba) în cadrul unui proiect naţional pe 10 ani, pentru a construi pînă 
în 1992 un FGCS. Proiectul este condus 'de Prof. Motoroka (,*. ) dela, 
Universitatea din Tokyo şi are un buget de aproximativ 400 mil. $. 

Maşina inferenţială este apreciată după numărul de inferenţe logice 
executate pe secundă (LIPS) şi se estimează că un calculator de generația 
a cincea trebuie să execute între 100 MLIPS și 1 GLIPS. Calculatoarele 
actuale pot realiza între 0.01 și 0.1 MLIPS, deci este necesară o ereştere 
a vitezei de execuţie de 4 ordine de mărime. O astfel de creştere se poate 
obține, probabil, numai printr-o combinaţie între o tehnologie, arhitectură 
şi metode avansate, S-a dedus că numai creşterea vitezei dispozitivelor 
electronice nu va îi suficientă şi că trebuie ca sistemele de calcul să devină 
mai paralele, să folosească arhitecturi ca cea denumită data- -flow, care 
exploatează în mod automat paralelismul inerent al problemei. În astfel 
de calculatoare, o operaţie are loc imediat ce operanzii ei sînt disponibili 
și există o unitate funcțională liberă (vezi $3.2.2. şi Treleaven 1979, Trelea- 
ven, Brownbridge ṣi Hopkins 1982 și Dennis 1980). Spre deosebire de 
calculatoarele controlate prin flux de instrucțiuni, denumite calculatoare 
control-flow, aici singurele restricții în ordinea de execuție sînt cele impuse 
de dependenţele de date. Cu aceste limite, ce pot îi identificate de către 
hardware, un calculator data-flow poate executa în paralel atitea operaţii 
cite unităţi funcţionale are. De o importanţă mult mai mare este faptul că, 
programatorul nu trebuie să identifice paralelismul problemei şi deci nici 
să-l programeze explicit în fluxul de instrucţiuni. Utilizarea unor nivele 
înalte de paralelism prin multiplicare este necesară pentru exploatarea 
avantajelor oferite de producţia de masă VLSI. 


* între timp decedat (Nota red.) 
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“Un alt aspect important al conceptului generaţiei a cincea este îmbu- 
nătăţirea considerabilă a interfeței între utilizatorul uman şi calculator, 
cunoscută cu denumirea de interfața om-maşină (MMI). Calculatoarele 
curente sint ineficiente în recunoaşterea vorbirii, manipularea textelor, 
comunicarea grafică şi prelucrarea imaginilor ; toate acestea sint caracte- 
ristici ale unei interfeţe bune pentru utilizator. Se acordă o mare importanţă 
progreselor în aceste domenii, care conduc tot la calculul paralel; 
întradevăr, deja calculatoarele înalt paralele, SIMD, ca ICL DAP și 
STARAN s-au dovedit foarte eficiente în prelucrarea imaginilor. În afara 
comunicării prin imagini şi sunet, MMI ar trebui să utilizeze maşina in- 
ferențială, pentru a apare utilizatorului cît mai inteligentă”, 

Proiectul generaţiei a cincea de calculatoare nu are ca obiectiv ereş- 
terea performanţelor de calcul numeric, deoarece acesta este subiectul 
unui proiect separat. MITI a lansat în 1982 un alt proiect naţional pentru 
dezvoltarea „Sistemelor de calcul de mare viteză pentru scopuri ştiinţifice 
şi tehnologice”, urmînd ca în 1989 să se producă un superecaleulator de 10 
Gtlop/s (Kashiwagi 1984). Proiectul este condus de dr. H. Kashigawi de 
la Laboratorul de electrotehnică, şi are un buget de 100 mil. $. La ele 
colaborează cu cele 6 firme electronice deja menționate în legătură cu pro- 
iectul generației a cincea. Pentru jusificarea programului s-au menţionat 
aplicaţii de prognoză a vremii, cercetările în aerodinamică şi fizică nucleară. 
Proiectul constă în cercetări în domeniul arhitecturii calculatoarelor para- 
lele și soft-ului al unor noi circuite logice cu viteză şi integrare mare şi, 
în final, în construirea şi evaluarea superealculatorului. Obiectivele sînt 
noi dispozitive logice cu timp de propagare/poartă de 10 ns (prin folosirea 
joncţiunii Josephson lucrează la temperatura heliului lichid, tranzisto- 
rul HEMT, ce lucrează în azot lichid), porți cu timp de propagare de 3ns. 
(pe bază de arseniură de galiu), ca şi noi circuite de memorie cu timp de 
acces de 10 ns. Nivelul de integrare urmărit pentru porțile logice este de 
3000 porţi/cip, iar pentru memorie de 16 Kb/cip. În plus faţă de proiectul 
naţional, în cursul anilor 1984/5 au fost lansate supercalculatoare produse 
de diverse companii. Acestea sînt proiecte cu mai multe unități pipeline, 
similare cu CRAY-1 şi CYBER 205. Fujitsu FACOM VP-100/V P-200, 
HITACHI 8-810 model 10/model 20 şi NEC SX-1/S$4-2 au perfor- 
manţele maxime de 533 Mflop/s, 630 Mflop/s şi, respectiv, 1300 Mflop/s. 
În cadrul unor universităţi şi institute de cercetare naţională s-au construit 
mai multe maşini experimentale, cu arhitecturi diferite (masive de proce- 
soare, calculatoare MIMD şi data-flow), de aceea va fi interesant de 
văzut care arhitectură va fi aleasă în final pentru supercalculatorul naţio- 
nal. 


1.1.8. Calculatoare MIMD 


Se spune uneori că, datorită progreselor tehnologiei VLSI şi a micro- 
procesoarelor ieftine, anii '80 vor fi decada calculatoarelor MIMD. Astfel 
de calculatoare, cu fluxuri multiple de instrucţiuni/fluxuri multiple de 
date, sint controlate de mai multe fluxuri de instrucţiuni. Noi limităm aici 
termenul la sistemele strîns conectate, în cadrul cărora fluxurile de ins- 
trucțiuni pot fi programate să coopereze împreună pentru a rezolva o 
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singură problemă. Excludem, în acest mod, calculatoarele slab conectate 
care comunică prin mesaje transmise prin intermediul unor reţele (de 
exemplu, ARPANET), sau contiguraţiile multiprocesor care sînt ascunse 
utilizatorului, ca cele 4 procesoare ale calculatorului IBM 3081. Deja am 
întîlnit exemple de sisteme MIMD pe scară mică sub forma calculatoarelor. 
CRAY X-MP cu 4 CPU și CRAY-2, sau ETA! cu 8 CPU. Totuşi, de obicei 
calculatoarele MIMD sînt gîndite ca ansambluri de mai multe calculatoare 
(de obicei mini sau micro) şi module de memorie, conectate cu un switch 
sau rețea. Din punct de vedere logic, acelaşi efect se poate obţine prin 
transmiterea fluxurilor multiple de instrucţiuni unei singure unităţi de 
procesare, așa cum se procedează la Denelcor HEP cu o singură unitate 
PEM. Ambele sînt exemple de calculatoare MIMD, deoarece au fluxuri 
multiple de instrucţiuni. În momentul de faţă sînt atit de multe arhitecturi 
MIMD propuse, încât includerea, aici a unei liste complete, chiar dacă ar fi 
posibilă, ar fi inadecvată şi plictisitoare. Deoarece s-au construit și ope- 
rează cu succes numai puţine calculatoare, le-am ales numai pe acestea 
pentru a le descrie aici. Un studiu mai amănunţit este prezentat în iueră- 
rile Hockeney (1985), d, 1986). 


(î) Calculatoarele ©. mmp și Cm* de la Carnegie- Mellon 

Unul din proiectele iniţiale de calculatoare MIMD dintre cele mai am- 
biţioase a fost calculatorul ©. mmp de la Universitatea Carnegie-Mellon 
(Wulf și Bell 1972, Mashburn 1982). Acesta este format din 16 minicalcula- 
toare DEC PDP-11 conectate la 16 module de memorie printr-o reţea cu 
accesuri încrucişate. Reţeaua asigură posibilitatea unei legături electronice 
directe între orice calculator şi orice modul de memorie (vezi fig. 3.8). 
Calculatoarele comunică prin partajarea unui spaţiu de adrese logice de 
32 MB, din care 27 MB au fost implementate de modulele de memorie. 
De asemenea, toate calculatoarele sint conectate la o magistrală comună. 
Proiectul a fost lansat în 1971, iar maşina a fost terminată în 1975. A 
rămas operațională pînă în 1980. Succesorul lui, Cm* a fost un concept 
complet diferit, ce a folosit microprocesoarele disponibile pe piaţă (Swan 
Fuller şi Siewiorek 1977, Fuller et al 1978). Memoria sistemului Cm* este, 
spre deosebire de situaţia de la C. mmp, împărţită între microprocesoare 
fiind, deci locală ; o rețea ierarhică asigură comunicarea între microproce- 
soare, Unitatea de bază este „modelul calculator” care constă dintr-un 
microprocesor DEC SI-11 cu 64 KB de memorie MOS dinamică şi proba- 
bil periferice, conectate la magistrala LSI-11. Acest modul poate lucra 
ca un calculator independent ; pină la 14 module pot fi conectate la o ma- 
gistrală comună „intra-ciorehine” (intra-cluster), pentru a forma un cior- 
chine strîns conectat cu transferul datelor prin acces direct la memorie. 
Sistemul este construit prin conectarea împreună a ciorchinelor prin 2 
magistrale inter-ciorchine (intereluster)pentru a forma o reţea slab conectată 
cu transferul datelor prin comutarea pachetelor. Ambele tipuri de magir- 
trale sînt controlate de calculatoare microprogramate. Natura conectării 
între modulele calculator este invers proporţională cu timpul de transfer 
al datelor între ele, și aceasta poate varia cu un factor de 10, funcţie de 
poziţiile relative ale modulelor. 'Transferurile cu memoria locală a acelu- 
iaşi modul durează 3 microsec., cele între module diferite ale aceluiași 
ciorchine durează 9 microsec., iar cele între ciorchini diferiţi durează 26 
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microsec. Toate calculatoarele componente ale Cm* partajează un spațiu 
de adresare virtual comun de 256 MB, iar sistemul este expandabil prin 
adăugarea unor noi ciorchini. Se speră să se exploateze avantajele oferite 
de o viitoare implementare VLSI a arhitecturii, cu- mai multe sute sau chiar 
mii de calculatoare. Proiectarea detaliată hardware a început în 1975 și, 
un ciorchine cu 10 calculatoare a devenit operațional în 1977. Acum este 
operaţional un sistem Cm* cu 5 ciorchini, cu un total de 50 calculatoare, 
propus ca instrument pentru testarea altor proiecte de calculatoare MIMD. 
Atit C.mmp. cât şi Cm* sînt descrise de Satyanaranyanan (1980), iar expe- 
riența de operare poate fi găsită în lucrarea lui Jones și Schwarz (1980). 


(i) Experimentele britanice 

Sistemele MIMD experimentale dezvoltate la sfirşitul anilor '70 şi 
începutul anilor '80 sînt prea numeroase pentru a le enumera pe toate. 
Totuși, următoarele sisteme sînt tipice. La Universitatea Loughborough 
s-au construit sub conducerea Prof. Evans sisteme MIMD cu memorie 
comună, care au fost apoi folosite pentru proiectarea unor algoritmi MIMD 
paraleli (Barlow, Evans și Shanehchi 1982). Primul sistem folosea două 


„miniealeulatoare Interdata 70, partajind 32 KB ai spaţiului lor de adre- 


sare. Mai tirziu, în 1982, au fost folosite 4 microcalculatoare TI 990/10 
cu memorie comună pentru a constitui un procesor paralel asincron (Bar- 
low et al 1981). Un sistem MIMD mai mare denumit CYBA-M, a fost 
construit la Universitatea Manchester, în cadrul Institutului pentru știință 
și tehnologie (UMIST), sub conducerea Prof. Aspinall. El constă din 16 
microprocesoare 8080 ce folosesc o memorie multiport (Aspinall 1977, 
1984, Dagless 1977). Alte proiecte interesante sint calculatoarele Data- 
Fow de la Manchester, maşina reducţionistă ALICE de la Imperial College 
și proiectele RPA şi Supernode de la Universitatea Southampton. Ultimele 
două sînt prezentate în capitolul 3. 


(iii) Ultracaleulatorul de la Universitatea New York și IBM RP3 

Cele mai multe proiecte britanice nu au avut; o publicitate bună, deşi 
au fost construite ṣẹ} au operat cu succes mulți ani. Un proiect academie 
mult mai ambițios, Uitracalculatorul NYU, a avut o publicitate foarte 
mare, deşi a rămas mulţi ani numai un proiect de hirtie. Oricum, lucrările 
publicate au influențat teoria și proiectarea sistemelor MIMD mari. 
Ca răspuns la potenţialul oferit de tehnologia VLSI, conceptul original al 
lui Schwartz (1980) se referea la o familie de arhitecturi de calculatoare, 
denumite ultracalculatoare, care conectau împreună mii de elemente 
procesoare într-o rețea cu o topologie denumită a amestecului perfect 
(perfect-shuffle nearest-neighbour — PSNN) — vezi fig. 3.21. Această re- 
tea impune conectarea fiecărui element procesor la cel mult alţi patru şi, 
s-a arătat, este foarte indicată pentru implementarea multor algoritmi 
paraleli ce folosesc strategia „divide et impera”. Un ultracalculator cu 16 K 
elemente procesoare poate îi folosit ca un masiv bi-dimensional 128 x 128, 
sau ca un masiv tri-dimenșional 32x32x16, sau ca un hipermasiv în 4 
dimensiuni 16 x16x8x8. Memoria; trebuie distribuită prin rețea cu 132 
Keuv. de 16 biţi de memorie locală pentru fiecare procesor. Circuite sepa- 
rate pentru transferul datelor implementează conexiunile PSNN între 
PE grupate cite 8. Într-un proiect ulterior al ultracalculatorului (Gottlieb 
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et al 1933), memoria locală a fost eliminată, iar memoria operativă s-a 
concentrat în module de memorie (MM). Elementele procesoare sint conec- 
tate la MM prin comutatoare multi-nivel, sub forma unei reţele Omega, 
(Lawrie 1975). Dacă sînt; N procesoare şi N module de memorie, sint nece- 
sare log2N nivele. S-a luat în considerare implementarea unei mașini cu 
4096 procesoare, pentru anii '99. La început se va construi un prototip 
cu 64 elemente procesoare pe baza microprocesoarelor și cipurilor de 
memorie comercializate, şi a unui circuit de comutare proiectat chiar de 
constructorii maşinii. 


IBM construiește o versiune de uitracalculator la Yorktown Heights 
Reseureh Laboratory, cu 512 elemente procesoare, denumită Research 
Parallel Processor Project (RP3). Acesta constă din 4 secțiuni a 64 proce- 
soare fiecare. Prima secţiune este programată să fie operaţională în cursul 
anului 1988. 

O trăsătură specifică a ultracalculatorului este posibilitatea execuției 
unei instrucțiuni „extrage şi adună” (feteh-and-add-FA), parţial imple- 
mentată de nodurile reţelei „Dacă mai multe procesoare doresc să adune 
datele la aceeași locaţie de memorie, pot executa în mod independent 
instrucţiunea FA, probabil chiar în acelaşi moment. Hard-ul reţelei com- 
bină aceste cereri în momentul cînd apar în noduri şi, în final, memoria 
este incrementată ca și cum toate cererile au fost lansate într-o ordine 
arbitrară. Astfel, se menţine secvenţa necesară de operaţii de adunare 
chiar dacă ordinea, care nu este importantă, nu este cunoscută. Operaţiile 
de extragere şi adunare sint de importanță fundamentală pentru mulţi 
algoritmi MIMD : de exemplu, pentru decrementarea unei variabile de 
sincronizare a mai multor procese, sau la acumularea sarcinilor într-o 
simulare de plasmă. Asigurarea acestei facilităţi în cadrul ultracalculatoru- 
lui este o inovaţie importantă, care va creşte viteza de execuţie a multor 
programe. Dacă fiecare procesor execută o instrucțiune FA cu aceeaşi 
variabilă, toate rezultatele se vor obține în intervalul de timp necesar 
execuției unei singure instrucţiuni, 


Gv) Proiectul Cedar de la Universitatea Illinois 

Proiectul Cedar, în curs de realizare la Universitatea Illinois de către 
D. Kuck şi echipa sa se referă la realizarea unei maşini de mai mulți giga- 
tlop/s, în anii '90 (Gajski et al 1983). Arhitectura generală este similară, 
ultracaleulatorului, dar Cedar nu posedă instrucţiuni extrage-și-adună. 
Printr-o rețea generală Omega, sînt conectaţi 16 ciorchini a cite 8 proce- 
soare, la 256 module de memorie de 4 pînă la 16 Mcuv. fiecare. Intervalul 
de timp între cererea de acces la memoria generală și disponibilitatea datei 
la procesor este de aproximativ 2 microsec. Fiecare ciorchine are 8 proce- 
soare cu 16 Kcuv. de memorie locală fiecare. Aceste procesoare sint pipe- 
line şi sînt conectate printr-o rețea locală. Toate locaţiile de memorie au 
un indicator ocupat-liber (ca la Denelcor HEP) pentru a permite sin- 
cronizarea între procesoare. S-a planificat ca prototipul Cedar 32 să aibă 
4 ciorchini a 8 procesoare şi să lucreze cu o perioadă a ceasului de 400 ns. 
Astfel, fiecare procesor atinge 2,5 Mflop/s cu o tehnologie lentă, rezultind 
un total de 80 Mtlop/s (comparabil cu CRAY-1) pentru un prototip de 
birou. Acesta, se va putea mări la Cedar 128 cu 16 ciorchini (320 Milop/s 
în 1988) și la Cedar 512 cu 64 ciorchini (1,2 Gflop/s-iîn 1990). O altă 
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versiune tehnologică pentru o perioadă a ceasului de 40 ns şi 25 Mflop/s 
pentru un procesor este planificată, cu denumirea Cedar 32H pentru 4 
ciorchini (800 Mflop/s în 1989 )şi Cedar 128H cu 16 ciorchini (3,2 Gflop/s 
în 1991). Proiectul a fost lansat; în 1983, iar pentru versiunile mai ambiţi- 
oase se doreşte colaborarea firmelor industr iale. De fapt, planurile expuse 
anterior nu au fost urmate exact, deoarece în 1985 s-a decis utilizarea 
calculatorului comercializat Alliant FX/8, ca ciorchine pentru Cedar. 
Această mașină este descrisă în §1.1.9. 


(vw) Proiectul EGPA de la Universitatea Erlangen 

Probabil arhitectura MIMD cea mai originală şi imaginativă a fost 
dezvoltată sub conducerea Prof. Händler la Universitatea Erlangen, 
R.F.G., denumită Erlangen General Purpose Array, sau EGPA, (Handler, 
Hofmann şi Schneider 1975, Händler 1984). Conexiunile între calculatoarele 
sistemului EGPA sînt topologie similare unei piramide. Calculatorul de 
control C din virful piramidei conduca 4 calculatoare B aflate la colţurile 
bazei sale. Cele 4 calculatoare B au, de asemenea, legături directe între 
ele după muchiile bazei. Acest sistem cu 5 calculatoare lucrează din 1981, 
folosind minicalculatoare AEG 80—60, fiecare cu 512 KB de memorie. 
Sistemul poate fi extins la nivele ulterioare, făcînd fiecare calculator B 
virful unei noi piramide cu 4 calculatoare A la baza sa. S-ar obţine un 
total de 16 calculatoare, care sint conectate între ele sub forma unui masiv 
4x4 ca la ICL DAP. Avantajul topologiei piramidei EGPA este că o co- 
municație pe trasee scurte poate avea loc foarte eficient, în plan, în timp 
ce cele pe trasee lungi se realizează tot eficient, prin trimiterea datelor la 
nivele superioare în piramidă. De exemplu, dacă calculatoarele de la 
bază formează un masiv n xn, atunci calculatoarele cele mai îndepărtate 
pot comunica în 2logzn pași prin vîrful întregii piramide, în timp ce în plan 
ar fi necesari 2n pași. Sistemul cu 5 calculatoare a fost folosit pentru prelu- 
crarea conturului, în cadrul prelucrării imaginilor, și s-a dovedit de aproxi- 
maativ 3 ori mai rapid decit un singur calculator de același tip (Herzog 
1984). Dacă se continuă dezvoltarea ierarhică cu un nou nivel, fiecare cal- 
culator A devenind virful unei noi piramide, la cele 4 nivele vor fi 1, 4, 
16, și respectiv, 64 calculatoare, ceea ce înseamnă un total de 85 calcula- 
toare. Aceasta este baza proiectului Erlangen Multiprocessor 85 (Händler 
et al 1985). 


(vi) Livermore 8-1 

De departe, proiectul MIMD cel mai ambițios este calculatorul Liver- 
more S-1 (Widdoes și Correll 1979, Farmwald 1984). Finanţat de U.S. 
Navy şi Departamentul energiei, sprijinit de E. Teller, proiectul complet 
S-1 cuprinde 16 calculatoare vectoriale pipeline din clasa CRAY-1, conec- 
tate la 16 blocuri de memorie printr-o reţea cu accesuri încrucișate, care 
asigură o legătură logică directă între fiecare calculator și fiecare bloc de 
memorie. De aceea, S-1 poate fi privit ca o versiune „matură” a calcula- 
torului C. mmp. Se estimează o performanţă generală echivalentă cu cea 
a 10 CRAY-1, adică aproximativ 1 Gilop/s. Fiecare din calculatoarele 
componente (denumite uniprocesoare) are o memorie cache pentru date 
(64 KB) şi una pentru instrucţiuni (16KB) pentru a limita traficul prin 
reţea. De asemenea, toate calculatoarele sînt conectate direct la o magis- 
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trală comună (cutia de sincronizare) pentru a facilita transferul unui nu- 
măr redus de date, ca și sincronizarea rapidă a mesajelor dintre ele. Fiecare 
modul de memorie poate avea capacitatea de maximum 1 GB (220), ceea 
ce produce un total de 16 GB (baiţi cu 9 biţi). Oricum, programatorul lu- 
crează cu o memorie virtuală uniformă de pînă la 2 GB. Mecanismul de 
paginare hard translatează adresele virtuale în adrese fizice, fără necesita- 
tea intervenţiei programatorului. Operaţiile aritmetice obişnuite se fac în 
virgulă mobilă pe 36 biţi, dar se pot executa și cu numere de 18 sau 72 
biţi. 

! Pentru anumite funcții matematice (sin, exp, log) există instrucțiuni 
care consumă timpul necesar pentru 2 înmulţiri. În plus faţa de instruc- 
țiunile vectoriale element-cu-element, se pot executa cu instr ucțiuni dedi- 
cate : transpunerea matricelor, înmulțirea matricelor și transformarea 
Fourier rapidă. Nu există registre vectoriale, şi toate operațiile cu vectori 
folosesc memoria operativă, considerată ca un spațiu continuu de clemente 
succesive, ca la CYBER 205. De asemenea, nu există instrucțiuni de dis- 
persare/grupare pentru asamblarea vectorilor continui din date neordo- 
nate, deşi se poate folosi instrucțiunea pentru transpunerea matricelor, 
dacă datele sint ordonate. Proiectul S-1 facilitează aplicarea continuă a 
noilor tehnologii în cadrul unei aceleiași arhitecturi. Un uniprocesor MARK 
I, ce este implentat în tehnologie ECL 10K MSI, a fost lansat în execuție 
în 1977, urmat de MARK II A cu tehnologie ECL 100K în 1983. MARK 
V înseamnă un supercalculator pe o capsulă. 


(vii) MIDAS 

Sistemul Modular Interactive Data Analysis System (MIDAS) de 
la Universitatea, Berkeley, California, (Maples et al 1981) este un sistem 
ierarhie constituit dintr-un calculator primar care conduce mai multe 
calculatoare secundare, fiecare controlind la rindul lui un masiv multi- 
procesor (MPA). Calculatorul primar realizează controlul sistemului, 
comunică cu utilizatorii și alocă resursele fiecărui job.Calculatoarele secun- 
dare rezolvă probleme individuale, execută părţile secvențiale şi alocă 
părţile paralele pentru execuție MPA. La nivelul cel mai de jos, MPA 
sînt ciorchini de cîte 8 elemente procesoare (Modeomp 7860), care formează, 
nucleul de calcul al sistemului. Fiecare MPA are un procesor pentru 
intrare şi unul pentru ieşire, ca şi o reţea în cruce pentru conectarea la 
16 module de memorie, a cîte 256 KB fiecare. Alocarea unui modul de 


memorie la un procesor poate fi schimbată în 50 ns, după care el poate 
fi adresat direct de către procesor. Deci, MPA este un calculator MIMD 
cu memoria partajată printr-o reţea cu accesuri încrucișate. Un prototip 
cu 4 procesoare și 8 module de memorie este operaţional din ianuarie 1982, 
iar un subsistem complet cu un calculator primar, un calculator secundar 
și un MPA este operaţional din februarie 1983. Modeomp 7860 atinge apro- 
ximativ 85%, din viteza de calcul a lui VAX 11/780, care echivalează cu 
aproximativ 0,3 Mflop/s, de unde o performanţă [generală de aproxima- 
tiv 3 Mflop/s (echivalentă aproximativ cu cea a unui CDC 7600), pentru 
un sistem cu un MPA. Acest sistem a fos folosit pentru a rezolva o serie: 
de probleme de fizică numerică și nucleară. 
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(viii) Finite Elein2nt Machine de la NASA 

__ Finite Element Machine (FEM) proiectată în cadrul NASA (Jordan 
1978) este un masiv MIMD bidimensional controlat de un minicalculator 
TI 990. Elementele procesoare sint microcalculatoare TI 9900 care au 
coprocesoare aritmetice în virgulă mobilă, AM 9512, 32 KB RAM şi 16 
KB ROM. Căi de date de 1 bit concetează fiecare procesor cu cei mai apro- 
piaţi 8 vecini (atit în direcție ortozonală, cît şi diagonală). De asemenea, 
toate procesoarele sînt conectate la o magistrală comună pe 16 biţi, care 
poate sesiza starea a 8 registre de condiţii din fiecare procesor. Pe baza 
acestor indicatori se pot realiza diverse funcţii logice ca toate”, „oricare”, 
folosite pentru sincronizarea operaţiilor masivului. Proiectul mașinii des- 
crie un masiv de 6x6 procesoare. Iniţial, s-a construit un masiv 4x2 
operațional în 1983. La acesta s-a adăugat în 1984 un al doilea masiv 4 x2, 
formîndu-se o structură 4 x 4. Masivul inițial a fost folosit intensiv, cu rezul- 
tatul unei experiențe de operare cu sistemele MIMQ. 


(ix) Hipercuburile (Cósmic Cube, Intel 4PSC, FPS T-Series) 

Hipercuburile binare au fost studiate pe larg ca reţele de interconece 
tare posibile pentru calculatoarele MIMD, odată cu publicarea importantei 
lucrări a lui Pease (1977), denumită „The indirzct binary n-cube micro- 
procesor array”. Totuşi, aceste maşini nu au fost realizate practic pînă la 
construirea calculatorului Cosmic Cube la Caltech, de către G. Fox şi 
şi C. Seitz în 1984. Ca rezultat al publicităţii făcute acestei maşini, au apă- 
rut mai multe versiuni comerciale și se observă o dezvoltare rapidă a 
acestei direcţii. 

Punctul, linia, pătratul și cubul cu noduri la colţuri și conexiuni de-a 
lungul muchiilor reprezintă rețelele hipercub de ordinul 0, 1, 2 şi, respec- 
tiv, 3. Fiecare nou cub este construit prin considerarea a 2 copii ale hiper- 
cubului de ordin imediat inferior, care sint unite la colțuri (noduri). De 
exemplu, hipercubut de ordinul 1 este format din două cuburi prin conec- 
tarea colțurilor corespunzătoare. în această secvență, hipercubul de ordin 
d are n=2? noduri şi d= logan conexiuni la fiecare noi. Astfel, unul din 
aspectele atrăgătoare ale acestei scheme de conectare este că numărul 
conexiunilor crește relativ lent odată cu dimensiunea hipercubului. Un 
alt aspect atrăgător este că hipercubul de ordin d are, evident, ca subse- 
turi conexiunile tuturor hipercuburilor de ordin inferior, ca şi toate cone- 
xiunile necesare pentru execuţia unei transformate Fourier rapidă cu n 
date. Adică, dacă corespunzător celor n date se atribuie o valoare fiecărui 
nod al unui hipercub de ordinul d, atunci datele combinate în orice etapă 
a execuţiei algoritmului FFT sînt permanent în noduri adiacente. Vom 
descrie în continuare arhitectura citorva calculatoare hiper cub, 


(x) Cosmie Cube 

Calculatoarele Cosmic Cube de la California Institute of Technology 
(Seitz 1985) şi derivatul lui comercial, Intel iPSC (supercalculator personal) 
sînt ambele rețele hipereub de microprocesoare. Cosmic Cube este un 
hipereub 2€ ce foloseşte un VAX 11/789 ca gazdă. Fiecare nod al cubului 
este constituit dintr-un Intel 8086 cu un coprocesor în virgulă mobilă 
Intel 8087, 128 KB RAM; plus 8 KB ROM ca memorie locală. Comunica- 
ţia între procesoare se realizează prin cozi de așteptare, pentru mesajele 
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transmise de-a lungul muchiilor cu o viteză de 2Mb/s. Fiecare “procesor 
este conectat la 6 vecini. Există canale de comunicaţie asincrone inde- 
pendente full duplex, ficoare cu o coadă de aşteptare pentru un mesaj de 
64 biți. Se admite o durată a comunicaţiei între noduri mare în comparaţie 
cu timpul de execuţie al unei instrucţiuni, dar comparabilă cu timpul 
necesar nodului pentru interpretarea mesajului. Această arhitectură face 
sistemul un simulator convenabil pentru viitoarele maşini cu noduri pe 
un singur cip. În sens larg, mașina poate fi descrisă ca echivalentul a 64 
IBM PC ce colaborează la rezolvarea unei probleme. 

8087 are o performanţă maximă de 50 Kfiop/s, deci, pentru cele 64 
procesoare ale calculatorului Cosmic Cube, s-ar atinge o viteză maximă de 
aproximativ 3 Milop/s. De aproximativ 10 ori mai mult decît VAX 
11/7830 la aproximativ același cost. Totuşi, maşina realizează numai 1/100 
la 1/10 din viteza supercalculatoarelor mari. Maşina este operaţională din 
octombrie 1983 ; o serie de probleme de fizică numerică au fost programate 
şi executate cu succes pe ea. Un hipercub cu 21 noduri, denumit Homo- 
geneous Machine, ar urma să folosească Intel 80286 plus 80287, plus 
80136 şi o memorie locală de 256 KB (prin folosirea unor circuite de 64 
Kb), expandabilă la 1 MB prin folosirea circuitelor de 256 Kb. Se esti- 
mează performanța hipercubului : 21 la aproximativ 100 Mflop/s, apro- 
Ximativ aceeaşi, cu a superealeulatoarelor mari (CRAY X-MP și 
CYBER 205). 


(xi) Intel iPS0-VX și N-Cube 

n cursul anului 1985, firma Intel a anunţat hipercuburle iPSC cu 
dimensiunile 25, 2° şi 27 cu performanţe de 2, 4 şi 8 Milop/s. Fiecare nod 
procesor conține un microprocesor Intel 80286 cu un coprocesor aritmetic 
80287 cu viteză de calcul de 1/16 Milop/s. Se folosesc 512 KB RAM şi 
64 KB EPROM. Hipercubul cu 32 noduri ocupă un spaţiu cu volumul de 
0,5 x9,6 x2,4 m? și este controlat de un microcalculator Intel 310. O altă 
companie, N-Cube, comercializează hipercuburi cu noduri circuite VLSI 
pe 92 biţi special proiectate. Viteza este de 3 Mflop/s, iar memoria locală, 
are 128 KB. Primul produs, N-Cube/10, poate fi extins la un cub 10-di- 
mensional, cu 1024 noduri. 

În 1986 Intel a anunţat iPSC-VX care are atașat fiecărui nod un pro- 
cesor pipeline, ce creşte performanţa vectorială teoretică la 20 Milop/s 
pe nod în modul de 32 biţi şi 6,7 Mflop/s în modul pe 64 biţi. Deoarece 
un nod conţine două plăci, numărul lor maxim se reduce la 64. Şicum 
viteza de comunicare între noduri nu s-a îmbunătăţit, este probabil ca 
performanţa acestei maşini să fie determinată în primul rînd de timpul 
consumat pentru comunicaţii, mai degrabă decit de cel pentru operații 
aritmetice (de exemplu, valoarea lui fi; va fi mare, vezi $1.3.6). Din acest 
motiv, se impune o formulare foarte atentă a problemei şi o programare 
adecvată, 


(xii) Seria PPS-T 

Tot în anul 1986, a anunțat şi firma Floating Point Systems seria T, 
sau Tesseract, un hipercub ce poate fi extins, teoretic, la 211 — 16384 
noduri. Cu toate acestea, primele maşini vindute în 1986 Universității 
tehnice Michigan, Universităţii Grenoble şi Laboratorului UR SERC 
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Daresbury au avut numai 16 sau 32 noduri. Fiecare nod poseda un transpu- 
ter INMOS (vezi $3.5.5) pentru gestiunea comunicaţiilor şi 1 MB de 
memorie video DRAM biport ca memorie centrală, Memoria DRAM poate 
furniza un vector continuu de 256 elemente pe 32 biţi în paralel la pină 
la 4 registre vectoriale, care alimentează la rîndul lor 2 circuite aritmetice 
pipeline în virgulă mobilă pe 64 biţi, WEITEK. La o perioadă a ceasului 
de 125 ns, s-ar atinge 16 Milop/s pe nod. Se presupune că vectorii sint 
memoraţi i în spații continue din DRAM şi că atit sumatorul, cît şi multi- 
plicatorul sînt folosiţi simultan. Transputerul INMOS are rolul de a rea- 
ranja datele în formă, continuă, simultan cu activitatea unităţilor pipeline. 
Raportul între timpii pentru execuţia unei operaţii aritmetice, cel pentru 
rearanjarea datelor în DRAM și timpul necesar obţinerii datelor de la un 
nod vecin este 1: 26: 256. Din nou, comunicaţia dintre noduri este cu 
cel mult 2 ordine de mărime mai lentă decit operatorul aritmetic, iar 
observaţiile anterioare privind performanţele calculatorului Intel i1SC 
se aplică, evident, şi seriei T. 


(xiii) Denelcor HEP — MIMD pipeline 


Este interesant şi probabil semnificativ că primul calculator MIMD 
comercializat, Denelcor HEP (Smith 1978). este destul de diferit faţă de 
calculatoarele descrise pină acum. În loc de a avea un număr de unităţi 
de prelucrare a instrucțiunilor distincte, fiecare cu fluxul propriu de ins- 
trucţiuni, la HEP întîlnim mai multe fluxuri de instrucţiuni ce parta- 
jează o singură unitate de prelucrare a instrucţiunilor, pipeline. Arhitec- 
tura generală a unui sistem HEP-heterogeneous element processor-ecomplet 
constă din 16 module de execuţie a proceselor (PEM) conectate la 128 
module de memorie pentru date (DMM) printr-o reţea de comutare a pa- 
chetelor. Fiecare PEM conţine 1 Mcuv. memorie pentru programe, 2 Kenv. 
memorie pentru registre şi 4 Kcuv. de memorie pentru constante. Fluxurile 
de instrucţiuni se creează sub controlul programului : instrucţiunea mașină 
(sau comanda FORTRAN) CREATE iniţiază un flux nou de instrucțiuni, 
numărul maxim de fluxuri ce pot coexista fiind de 50. Apoi, instrucţiunile 
fiecărui flux sînt transmise unui pipeline cu 8 etaje. Cind acest pipeline, 
este plin, o instrucţiune este executată la fiecare 100 ns., de unde atingerea; 
unei viteze maxime de 10 Mips pe PEM sau 160 Mips pentru un sistem 
HEP complet. Dacă presupunem că în medie pentru fiecare operaţie în 
virgulă mobilă sint necesare 5 instrucţiuni, se obţine 2 Mflop/s pe PEM și 
32 Miflop/s pentru întregul sistem. Dacă numărul instrucţixnilor pentru o 
operaţie în virgulă mobilă se poate reduce, viteza poate fi crescută la 5 
sau 6 Mflop/s pe PEM. Aceasta se poate realiza pentru anumite calcule cu 
matrici, dacă registrele PEM sînt programate să lucreze ca registre vecto- 
riale ce memorează rezultatele intermediare. În acest; mod se limitează 
numărul de referinţe la memoria de date (Sorensen 1984, Dongarra și 
Sore ensen 1985). 

"Metoda implementării calculatoarelor MIMD cu PEM, în cazul 
HEP, este mult mai flexibilă decit cea folosită la structurile ce se bazează 
pe un număr fix de microcalculatoare. Numărul fluxurilor de instrucțiuni 
poate fi schimbat de la o problemă la alta prin program și, în acest mod, 
se poate alege. un număr adecvat de fluxuri pentru problema de rezolvat — 
nu mai este un număr fixat prin hardware, ce s-ar putea să nu corespundă, 
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problemei sau algoritmului ce este implementat. Fiecare DMM poate avea 
pînă la 1 Meuv. de 64 biţi, ceea ce înseamnă o capacitate de 1 GB pentru 
sistemul complet. Reţeaua de comutare asigură un timp de propagare între 
noduri de 50 ns. Un interval de timp tipic pentru a obţine o dată din me- 
morie, via reţea, este de 2 microsec. Datorită arhitecturii sale interesante, 
vom trata despre Denelcor HEP în $3.4. 

Dezvoltarea sistemului HEP a fost subvenţionată de armata S.U.A. 
şi a culminat cu livrarea unui sistem cu 4 PEM x4 DMM la Ballistic Re- 
search Laboratories, Aberdeen-Maryland, în anul 1982. Este interesant 
că tot BRL a subvenţionat şi achiziționat în 1946 calculatorul ENIAC, 
care poate fi considerat primul calculator MIMD. Sisteme cu un singur 
PEM/DMM au fost livrate la University ot Georgia Research Foundation 
(1982), Messerchmidt Research Munich (1983) şi Los Alamos Research 
Laboratories (1983). Versiunea iniţială, descrisă mai sus ca HEP-1, a fost 
implementată în tehnologie ECL 10K, deoarece nu s-a dorit lansarea în 
acelaşi timp cu arhitectura revoluţionară și a unei noi tehnologii. HEP-2, 
anunțat în 1983 pentru livrarea în 1986, urma să folosească tehnologia, 
VLSI ECL îmbunătăţită, cu un timp de comutare de 300 ps și 2500 porţi/ 
cip. Perioada ceasului ar trebui să fie de 20 ns, iar o unitate pipeline pentru 
înmulţire/adunare ar realiza 100 Mflop/s pe PEM. El se bazează pe arhitec- 
tura MIMD a lui HEP-1 şi va atinge o performanță de între 200 Mips şi 
12000 Mips, ce corespund în marela valorile de 50 Milop/s și 2,4 Gflop/s. 
Din păcate, compania a dat faliment în 1985 datorită problemelor finan- 
ciare. Totuși, proiectul HEP este atît de nou şi interesant încît îl vom trata 
pe larg în § 3.4.4. 


(xiv) CDO Cyber Plus — un sistem în inel 

Calculatorul Cyber Plus, produs de Control Data, este derivat din 
Advanced Flexible Processor, construit pentru aplicaţii militare ca analiza, 
rapidă a fotografiilor luate din avion. Arhitectura lui Cyber Plus este 
neobișnuită şi interesantă pentru că se bazează pe o topologie de comunicaţii 
multi-inel. 

Sistemul CDC Cyber Plus este format din 1 pină la 16 procesoare 
Cyber Plus conectate în inel la un canal al unui CDC Cyber 170/800, folosit 
ca gazdă. În clasificarea noastră (vezi $ 1.2.6) este un calculator MIMD 
cu reţea în inel. La calculatorul gazdă pot fi conectate pină la 4 astfel 
de inele. Procesorul propriu-zis, Cyber Plus, posedă 256 sau 512 Kcuv. 
de 64 biţi (timp de acces 80 ns) pentru date în virgulă mobilă, 16 Kcuv. 
de 16 biţi (timp de acces 20 ns) pentru întregi şi o memorie program de 
4 Kcuv. iar instrucțiunile pe 240 biţi definesc destinaţia rezultatelor pro- 
duse de fiecare unitate funcţională, la fiecare ciclu maşină. 

Procesoarele Cyber Plus formează staţii pe un inel, iar comunicațiile 
între procesoare se realizează prin trimiterea unor pachete de informaţii 
pe inel. Pachetele se deplasează de-a lungul inelului la viteza de o staţie 
într-o perioadă de ceas, pînă ce este atinsă destinaţia. Fiecare procesor 
poate citi sau scrie pe inel la fiecare perioadă de ceas. Deci, timpul de co- 
municaţie între procesoare depinde de distanța relativă în inel. Un al 
doilea, inel leagă procesoarele Cyber Plus la gazda Cyber 170 şi memoria sa. 
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(xv) Sisteme conectate prin magistrala (ELX SI 61400, FPS 5000, 
Segquent Balance) 

De departe, calculatoarele MIMD comercializate cele mai comune 
folosesc mai multe elemente de calcul (CE) şi module de memorie coneztate 
la o magistrală comună. În continuare vom deserie unele dintre ele. Alte 
calculatoare, cu o arhitectură similară, sînt FLEX /32 (20/cabinet), Encore 
Multimax (20) și Culler PSC (2); în paranteză am trecut numărul de CE. 


(xvi) ELXSI 6400 

ELSXI 6400 este un exemplu de sistem MIMD în care procesoarele 
şi memoria sînt conectate la o magistrală rapidă partajată. La ELXSI 
(Taylor 1983) pot exista de la 1 la 10 CPU și de la 1 la 10 procesoare de 
I/E ce accesează de la 1 la 6 sisteme de memorie (4 la 192 MB), via o 
magistrală de date comună de mare viteză, denumită Gigabus. Unităţile 
centrale pe 64 biţi ating 4 Mips, astfel că viteza potenţială maximă este 
de 40 Mips. Gigabus are lărgimea de 64 biţi şi un ciclu de 25 ns, asiguiind 
o viteză maximă de transfer de 320 MB/s (adrese şi date). În mod obișnuit 
se atinge de la 160 MB/s la 220 MB/s. Ciclul memoriei este de 400 ns (pen- 
tru două citiri pe 64 biți şi o scriere), iar timpul de înmulţire în vir- 
gulă mobilă este de 300 ns (64 biţi). Luînd de asemenea în considerare 
ciclurile de magistrală necesare, se obține un timp total pentru executia, 
unei înmulţiri în virgulă mobilă cu 1 CPU de aproximativ 800 ns, deci o 
viteză de 1,2 Mflop/s. Programele Livermore se execută în mod curent la 
0,3 pînă la 1,4 Mflop/s pe un sistem cu 1 CPU. Prin suprapunerea acceselor 
la memorie pentru operațiile aritmetice, un sistem de memorie poate 
asigura cu date 2 CPU fără interferenţe, deci 6 sisteme de memorie sînt 
mai mult decit suficiente pentru sistemul complet cu 10 CPU, ce ar atinge 
astfel 12 Mflop/s. Un calculator ELXSI 6400 a fost comandat de către 
NASA Ames Deyden Data Analysis Facility. 


(xvii) PPS-5000 

Seria de calculatoare Floating Point Systems 5000 este, ca şi ELXSI, 
un sistem MIMD cu comunicaţii prin magistrale (Cannon 1983). Un pro- 
cesor de control de 8 sau 16 Mflop/s și pînă la 3 coprocesoare aritmetice 
XP 32 de 18 Milop/s sînt conectate via o magistrală de 6 Mcuv./s la o 
memorie comună de 1 Mcuv. Procesorul de control este fie un FPS AP- 
120B, fie un FPS-100 „masiv de procesoare”, dar XP 32 este un proiect 
nou ce foloseşte circuitele VLSI WEITEK pentru înmulţire şi adunare 
pe 32 biţi în virgulă mobilă. Acestea, sint pipeline-uri cu 8 etaje celucrează 
cu o perioadă a ceasului de 167 ns, de unde viteza de 6 Milop/s pe circuit. 
Un circuit pentru înmulţire furnizează rezultatele la 2 circuite pentru adu- 
nare, într-o manieră convenabilă calculului transformatei Fourier rapide, 
asigurindu-se 18 Milop/s pe coprocesor și 62 Milop/s pentru configuraţia 
maximă a sistemului. Procesorul de control şi coprocesoarele pot executa 
programe independente. FPS-5000 este descris mai pe larg în $ 2.5.10. 


(xviii) Sequent Balance 8000, 21000 
Proiectat ca un superminicalculator cu performanţe de aproximativ 
6 ori mai mari ca ale lui DEC VAX 11/780, Sequent Balance este o arhi- 
tectură pe 32 biţi, cu o magistrală pentru conectare la memoria comună. 
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Pină la 12 PE (modelul 8000) sau 24 PE (modelul 21000) şi pînă la 28 
MB de memorie comună partajabilă se pot atașa la o magistrală largă 
ae 52 biţi cu transfer pipeline de 26,7 MB/s. Fiecare proces poate folosi un 
spațiu de adresare virtuală de 16 MB. Fiecare procesor este un NS 32032 
ce operează la 10 MHz, are unităţi în virgulă mobilă, unitate de manage- 
ment a memoriei și 8 KB de memorie cache. Pe o placă se află 2 PE, 
ce comunică cu magistrala printr-un circuit propriu care asigură comunica- 
ţia, inter-procesoare, sincronizarea şi gestiunea întreruperilor. Aceste sis- 
teme au fost introduse în producţie în 1984, iar la sfîrşitul lui 1985 fe 
vînduseră aproximativ 80 bucăţi. Acest calculator este popular, permiţind 
într-un mod economic investigarea algoritmilor paraleli pentru sistemele 
cu memorie partajată. În acest scop este folosit în cadrul Departamentului 
de calculatoare al Universităţii tehnologice Loughborough. 


(xix) IBM/CAP și Cornell Supercomputer Center 

Relaţia dragoste-ură a IBM-ului cu domeniul superealculaioarelor 
științifice, deja amintit, a căpătat o turnură pozitivă la începutul anilor 80 
sub conducerea Dr. E. Clementi, devenit IBM Fellow, angajat în cercetări 
de chimie numerică cu ajutorul firmei IBM. Fiind dezamăgit de facilităţile 
de calcul oferite de produsele IBM, Clementi a conceput ideea atașării a 
pină la 10 calculatoare Floating Point Systems 164 la canalele unui cal- 
culator gazdă IBM. Calculatoarele formează o reţea în stea cu centrul 
calculatorului gazdă, între cele 10 calculatoare FPS 164 nefiind nici-o 
legătură directă. Deşi rata de transter a canalului este lentă în comparaţie 
cu timpul de execuţie al operaţiilor de calcul, Clementi şi colegii săi au 
găsit că multe probleme științifice pot fi împărţite în sub-task-uri care nu 
necesită comunicaţii prea frecvente prin canal. Se asigură că acest masiv 
de procesoare slab interconectate (loosely coupled array of processors — 
ICAP) poate atinge viteze de calcul comparabile cu cele ale lui CRAY-1, 
la un cost foarte economic. ICAP este descris în detaliu în $2.5.9: 

Primul sistem ICAP a fost instalat la IBM Kingston, iar al doilea în 
1955/6 la IBM European Center for Scientific and Engineering Computing 
(ECBEC) Roma, pentru a ti folosit de omenii de știință europeni. Un sis- 
tem similar se află la Universitatea Cornell, ca unul din cele 4 centre de 
calcul avansat stabilite de către US National Science Foundation. La 
aceasta a colaborat şi Cornell Center for Theory and Simulation în Science 
and Engineering, condus de K.G. Wilson, laureatul Nobel pentru fizică în 
anul 1982. 

Configuraţia iniţială care folosea 10 FPS 164 pentru a atinge viteza 
lui CRAY-1 nu este, probabil, prea atrăgătoare, dar experienţa, ciștigată, 
arată cum se pot împărți problemele mari pentru a fi executate de astfel 
de sisteme MIMD. Oricum, sînt iminente trei dezvoltări, care pot trans-. 
forma această imagine. Prima, o magistrală de mare viteză, în curs de 
realizare, va permite calculatoarelor FPS 164 să comunice între ele direct, 
fără a mai folosi canalele lente ale calculatorului gazdă; a doua, FPS 164 
pot fi înlocuite cu FPS 264 cu o creştere de 4—5 ori a vitezei cu păstrare 
compatibilivăţii programelor ; a treia, la fiecare FPS pot fi adăugate pînă 
la 15 plăci FPS MAX, ceea ce ar conduce la o performanţă teoretică ma- 
ximă de 341 Mflop/s pentru fiecare FPS şi 3,4 Gflop/s pentru configuraţia 
ICAP completă. 
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(xx) BBN Butterfly 

= Acest calculator diferă de celelalte sisteme MIMD descrise prin aceea 
că este un sistem cu memorie distribuită (vezi $1.2.6 şi fig. 1.9). Cu alte 
cuvinte, întreaga memorie a sistemului este distribuită ca memorie locală 
multiplelor PE, interconectate într-o rețea cu mai multe etaje. Natura 
distribuită a memoriei nu influențează modul de programare; utilizatorii 
avind posibilitatea să scrie programe ca și cum întreaga memorie este par- 
tajată, de toate CE. Singura diferenţă între accesarea datelor în memoria 
locală a CE, și în memoria locală a altui CE constă în timpul necesar 
mesajelor să parcurgă rețeaua. Acesta este de 4 microsec., ceea ce este 
foarte mult pentru un sistem de calcul. Topologia rețelei este Banyan 
(Feng 1981), similară celei necesare pentru furnizarea datelor trastormatei 
Fourier rapide în logn paşi pentru n date (aşa numita operație fluture, 
vezi de asemenea $3.2.2. şi $5.5.1). De aici şi denumirea rețelei. 

Primul model BEN Butterfly (1985) conține 128 CE, cu posibilitatea 
maximă de 256, ca CE folosindu-se Motorola 68000 cu 1 MB de memorie 
locală. Îmbunătăţiri ulterioare includ operatori în virgulă mobilă hard- 
ware, cu Motorola; 68020 și coprocesorul 68881, şi o memorie locală de 4 
MB. Pe o placă se află 1 CE cu memoria sa. Calculatorul iniţial Butterfly 
cu 128 CE a atins 26 Mflop/s la înmulţirea a două matrici 400 x 400 și 
3 Mflop/s la rezolvarea a 1200 ecuaţii liniare prin eliminare gaussiană. 


(xxi) Transputerul INMOS 

O etapă importantă în dezvoltarea, reţelelor MIMD de calculatoare a 
fost reprezentată de anunţarea în anul 1985 a Transputerului INMOS 
(INMOS 1985). Acesta este o familie de circuite VLSI proiectate special 
pentru lucrul concurent şi limbajul de programare paralelă OCCAM aso- 
ciat. De exemplu, transputerul T 800 constă, pe un cip de 1 cm?., dintr-un 
microprocesor pe 32 biţi, un coprocesor în virgulă mobilă, 4 Kb de me- 
morie şi 4 legături seriale pe 1 bit pentru conectarea cu alte transputere 
într-o rețea. | 

Acum se află în curs de realizare mai multe calculatoare MIMD ce 
folosesc transputere și, în mod evident, transputerul va avea o influență 
semnificativă asupra reţelelor MIMD. De aceea descriem transputerul în 
capitolul 3 ($3.5.5), iar limbajul OCCAM în capitolul 4 ($4.4.2). 


(xxii) Circuitele VLSI în virgulă mobilă WEITEK 

O altă realizare VLSI cu o mare influenţă asupra implementării și, 
în particular, a performanţelor calculatoarelor MIMD. o reprezintă circui- 
tele VLSI pipeline pentru operaţii aritmetice in virgulă mobilă. Înaintea, 
anului 1984, un sumator în virgulă mobilă pe 64 biţi necesita aproximativ 
13000 porți, implementate în tehnologie de integrare pe scară medie (MSI, 
cu 10 pînă la 100 porţi/cip). Se foloseau aproximativ 2000 circuite plasate 
pe 7 plăci de 35 cm. x54 cm. (Charlesworth şi Gustafson 1986). În cursul 
anului 1984 firma WEITEK Inc., din Valea Siliciului, California, a reali- 
zat trecerea la integrarea pe scară foarte largă (VLSI cu mai mult de 
1000 porţi/cip) şi a oferit posibilitatea de a executa operaţii în virgulă, 
mobilă pe 64 biţi într-o unitate pipeline realizată, cu 9 circuite VLSI (Ware 
et al 1984). La mijlocul anului 1985 şi alţi producători au oferit produse 
similare (de exemplu, Analog Devices). Circuitele WEITEK pe 64 biţi 
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includ un multiplicator în 7 etaje şi un sumator cu 6 etaje, ce lucrează la o 
perioadă a ceasului de 125 ns. Deci, performanţa teoretică maximă este 
de 16 Mflop/s pentru numai două circuite VLSI. Este deci posibil pentru 
fiecare proiectant să obțină o performanţă teoretică maximă de 16 Mflop/s. 
pe CE (sau 1 Gflop/s pentru sisteme cu 64 CE) prin folosirea acestor cir- 
cuite în cadrul fiecărui CE al unui sistem MIMD. Desigur, fracţia din această 
performantă teoretică: ce se poate obţine în mod real poate fi foarte mică 
dacă comunicațiile nu se execută în mod adecvat, pentru a alimenta în 
permanenţă circuitele cu date. Nu este mai puţin adevărat că potenţialul 
aritmetic al sistemului MIMD a fost revoluţionat de aceste componente 
care se pot întilni acum în cadrul multor sisteme (Alliant FX/8, FPS T- 
Series, FPS-5000, FPS-164/MAX). 


1.1.9. Minisuperealeulatoarele (Convex C-1, SCS-40) 


Denuniite uneori ,„supercalculatoarele accesibile”, (ca preţ, nota trad.) 
minisupercalculatoarele se pot defini ca sisteme de calcul vectoriale în 
virgulă mobilă pe 64 biţi cu de la 1/8 la 1/4 din performanţa unui 
superealculator, dar la aproximativ 1/10 din preț, deci la prețul unui 
minicalculator. De exemplu, Convex C-1, anunţat în 1984, atinge maximum 
20 Mflop/s (64 biți) sau 40 Mflop/s (32 biți) pentru un preţ “de 195 000$ 
(Linback 1984). (În tab. 1.1 se compară performanțele acestui mini-. 
supercalculator cu ale altora). Apariția acestui calculator este un alt aspect 
al revoluției calculatoarelor produsă de circuitele VLSI cu 10000 sau mai 
multe porți pe cip. Nu numai că această tehnologie permite ca un calcula- 
tor serial simplu să fie implementat pe un singur cip, obţinind microproceso- 
ul, dar întreaga logică a unui calculator vectorial pipeline poate fi plasată, 
pe câteva sute “de circuite care pot ocupa numai citeva plăci. Ca un SI 
plu extrem, ETA Corporation a demonstrat că un CYBER 205 cu 2 uni- 

tăți pipeline poate fi realizat pe o urile de 13 em x60 cm, folosind circuite 
VLSI CMOS cu 20000 porţi/cip (vezi $2.3.7.). 


(i) Convex C-I 

Convex C-1 foloseşte 8000 porți/cip, de aceea maşina cu 128 MB de 
memorie ocupă numai un rack de 48 cm şi 1,5 m înălţime. Un al doilea 
rack conţine o unitate de bandă și una de disc. La o putere consumată 
de 3,2 KW, răcirea cu aer este suficientă şi, deci, nu necesită condiţii 
speciale de instalare. Spre deosebire de acesta CRAY X-MP foloseşte cipuri 
cu' 16 porţi, consumă aproximativ 200 KW şi are nevoie de o instalaţie 
specială de răcire cu freon, de unde și o cauză a diferenţei de preţ. Vitezele 
relative de calcul trebuie să fie în linii mari invers proporţionale cu perioa- 
dele ceasului care sint de 12,5 ns pentru CRAY-L și 100 ns pentru C-1, 
de unde un raport de 3, verificat practic. 

Performanța pentru probleme reale poate fi judecată și stabilită în 
contextul bibliotecii de programe de test LINPACK (Dongarra 1986) unde 
300 ecuaţii liniare sînt rezolvate în FORTRAN prin folosirea tehnicii ma- 
trice-veetor (vezi tabelul 1.1). Performanţele relative sînt de 66 Mflop/s. 
pentru CRAY-19, 8,7 Milop/s pentru Convex C-1 și 0,1 Mflop/s pentru 
DEC VAX 11/780 cu accelerator în virgulă mobilă (folosit pe scară largă. 
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în anul 1984). Optimizarea execuţiei de programator pentru codurile cri- 
tice crește performanța lui C-1la 14 Mflop/s. Pe de altă parte, un super- 
calculator al anului 1984, CRAY X-MP/4, ce foloseşte toate cele 4 CPU, 
poate atinge 480 Milop/s pentru această problemă. 


Tabelul 1.1 Cemparaţii între minisupercaleulatear, prin execuția unor programe de test. Per- 

formanţa medie este dată în Milop/s pentru problema dată în operaţii în virgulă mobilă pe 

64 biţi (excepţiile sînt menţionate), Valorile comparabile pentru cele mai performante su- 

percalcuiotoare sînt prezentate în tabelul 2.7 (Date din lucrările lui Dongarr 1985, Dongarra 
şi Scrensen 1985, 1987). 


MINI MINISUPER i 
Problema VAS | Aliant Convex al si a 
PELRROEIA] FX/(p) C-1 SCS 40 SAP 
i - 
Performanța | 5,9 i 20 44 210(1) 
teoretică maximă 47(8) 140(32biţi) 420(2) 
840)4 
| |____ (840) 
(E, Dra) (0,9,151%1 | (70,53) (1) 
FORTRAN 1.3.3 (4,1, 23)(8) CER | (140,5700) (2) . 
Livermore 3 ! 9%6(1) 
produsul cel mai interior 
Livermore 6 | 8(1) 
tridiagonal | | 
Livermore 14 | | i | 7(1) 
analiza particulelor | == | 2 
LINPACKa i 1,31) | 2,9 | 24(1) 
TORTRAN | = 2,5(8) | 7,3 | 
n = 100 i | i 6,2(8) i 
Asamblor | 1,70) Í 3,2 |! 44(1) 
bucla cea mai interioară 1 2,6(8) : | i ! 
n = 100 | 8,5(8) a 
Asamblorul cel mai bun l | | i 171(1) 
matrice-veclor on | 7,3(8) ' | 25⁄2) 
n = 300 ' |4148) i Ba i 26 | 48004) 
Note 


a Solufia a n ecuații liniare (Dongarra et al. 1979) 

b Minicalculator tipic pe 32 biți, la nivelul anului 1984 

¢ Toate FORTRAN 

Numärul de CE sau CPU ofolosit este trecut in paranteze 
e FORTRAN cu directive pentru compilator 

f Hockney (1985 a) 


S 


Semnificația apariției minisupercaleulatoarelor este că firmele de 
inginerie ce foloseau VAX 11/780 sau minicalculatoare similare pentru 
calcule tehnice îşi pot creşte posibilitățile de calcul cu aproximativ 2 or- 
dine de mărime prin introducerea unui superealculator, firă o creştere 
semnificativă a prețului. Deci, simulările ingineresti complexe, executate 
anterior de centre dotate cu superealculatoare, pot fi executate acum 
„acasă. Mai mult calitatea operaţiilor aritmetice a crescut de la 32 biţi 
pentru VAX la 64 biţi pentru minisupercalculatoare. Totuși, deși Convex 
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C-1 realiza în mod real în anul 1984 între 1/8 şi 1/4 din performanţa super- 
calculatoarelor anului 1976 (CRAY-1), rezultatele execuţiei programelor 
LINPACK arată, de asemenea, că se realizează numai 1/50 din performanţa 
unui superealculator al anului 1934 (CRAY X-MP/4), 

În general, arhitectura lui Convex C-1 este similară celei alui ORAY-L 
în aceea că foloseşte o serie de unităţi funcţionale ce lucrează cu registre 
vectoriale. Detaliile sînt totuşi destul de diferite ; maşina nu foloseşte setul 
de instrucţiuni al lui CRAY. Spre deosebire de CRAY-1, setul de instruc- 
țiuni ale lui 0-1 permite adresarea la nivel de octet, iar adresele pe 32 biţi 
(în comparaţie cu 24 biţi la ORAY-1) pot adresa direct un spaţiu de memorie 
virtuală de 4 GB, sau 500 Meuv. (64 biți). Există trei unităţi funcţio- 
nale (pentru load/store/vector edit, adunare/operaţii logice și înmulţire/ 
împărțire) şi 8 registre vectoriale a 128 elemente de 64 biţi fiecare. Fiecare 
unitate funcţională posedă 2 unităţi pipeline, pentru elemente pare, res- 
pectiv impare. Fiecare pipeline execută o operaţie pe 64 biţi la fiecare 
200 ns sau o operaţie pe 32 biţi la fiecare 100 ns. Se obţine o rată efectivă 
de prelucrare de 1 rezultat pe 64 biţi la fiecare 100 ns, sau un rezultat pe 
32 biţi la fiecare 50 ns. Deoarece numai 2 unităţi pipeline execută operaţii 
aritmetice în virgulă mobilă, se obțin 20 Mflop/s pentru modul în 64 biţi, 
sau 40 Mtlop/s pentru modul în 32 biţi. Registrele vectoriale primesc date 
fie de la o memorie cache de 64 KB cu timp de acces de 50 ns, fie direct 
de la memoria centrală de 16 Mcuv. organizată în 16 blocuri. Transferurile 
pe 64 biţi între memoria centrală și memoria cache au loc la 10 Mcuv./s, 
` comparație cu 80 Mcuv./s pentru CRAY-1 și 315 Mcuv./s la CRAY 

-MP. 


(îi) SCS-40 

Al doilea minisuperealculator anunţat, Scientific Computer System 
SCS-40, a apărut în 1986. Ca şi în cazul lui Convex C-1, producătorii pre- 
tind că SC5-40 atinge 25% din performanța lui ORAY X-MP/1, la 15% 
din preţ. Spre deosebire de 0-1, această maşină folosește setul de instruc- 
iuni al lui CRAY, iar programele CRAY pot fi executate fără probleme. 
Arhitectura constă din 16 blocuri de memorie centrală (4 Meuv. în con- 
iiguraţie maximă) conectată via magistrale multiple şi o rețea de comutare 
vectorială la 3 registre vectoriale a 64 elemente. Acestea, la rindul lor, sînt 
conectate prin mai multe magistrale la unităţi funcţionale pipeline, ce 
corespund celor de la seria CRAY. Fiecare unitate funcțională are o per- 
tormanţă maximă de un rezultat la fiecare tact de 45 ns, atingind maxi- 
mum 44 Mfiop/s dacă cele două pipeline pentru adunare şi inmultire lu- 
crează simultan, 

Ciclul magistralei de 22,5 ns permite ca pe o singură magistrală să se 
transmită 2 cuvinte de 64 biţi în cursul unei perioade de ceas a maşinii 
şi deci, lucrează ca 2 magistrale logice. Între memoria centrală şi registrele 
vectoriale operează 4 astfel de magistrale logice ce asigură o rată de trans- 
ter de 89 Meuv./s (în comparaţie cu 10 Meuv./s la C-1). Cele 6 magistrale 
logice asigurate între registrele vectoriale și unităţile funcționale permit 
execuţia simultană a 2 operaţii diadice. Pentru 2 asigura aceste viteze de 
lucru s-au folosit circuite integrate MSI şi LSI în tehnologie ECL, spre 
deosebire de circuitele VLSI CMOS mai lente de la Convex C-1 (perioada 
ceasului de 100 ns), Diferenţa; de viteză este evidentă la execuţia progra- 
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melor LINPACK pentru matrici de ordinul 100, cînd SCS-40 atinge 7,3 
Mflop/s, iar Convex C-1 2,9 Milop/s ; un raport aproape identice cu cel între 
perioadele de ceas ale celor 2 maşini. Reprogramarea problemelor LIN- 
PACK în termeni de matrice-vector, în loc de vector-vector ridică per- 
formanţa de 26 Milop/s pentru o matrice de ordinul 300. 


Gii) Alliant FX/8 

Aliant FX/8 este singurul minisupercalculator deseris aici care folo- 
seşte o arhitectură MIMD ; 8 elemente de calcul (CE) partajează o memorie 
comună. Fiecare CE este un calculator vectorial cu 8 registre vectoriale 
ce păstrează 32 cuvinte a 64 biți fiecare şi unități functionale pipeline 
separate pentru adunare, înmulţire şi împărţire în virgulă mobilă. La un 
ciclu de 170 ns, fiecare CE atinge maximum 11,8 Mflop/s (32 biţi) sau 
5,9 Mflop/s (64 biţi), deci o maşină cu 8 CE atinge maximum 94 Mflop/s 
(32 biţi) sau 47 Mflop/s (64 biţi). CE sînt conectate printr-o reţea cu acce- 
suri încrucișate la 2 memorii cache de 64 KB lao rată de transfer de 376 
MB/s. Memoria cache accesează memoria partajată printr-o magistrală 

. la o rată de 188 MB/s. Memoria partajată se poate extinde la 64 MB în 
module de 8 MB, fiecare împărţire în 4 blocuri. În tabelul 1.1 se prezintă 
şi rezultatele execuţiei programelor de test pe Alliant FX;8. Se observă 
că performanţele sînt similare lui Convex C-1 şi inferioare celor ale lui SCS- 
40. 

Maşina mai conţine o „magistrală concurentă” direct conectată la 
toate CE. Aceasta este folosită pentru sincronizarea CE cu un overhead 
minim. Fiecare CE are o unitate de control concurent (CCU) care este inter- 

faia la această magistrală. CCU distribuie în timpul execuţiei operaţiile 
la CE și sincronizează calculele prin hardware. În acest mod, se asigură prin 
hardware dependența de date a diferitelor instanțe ale buclelur DO, 
iără nici o intervenţie a programatorului, chiar dacă la diferite CE se atri- 
buie indici diferiţi ai buclelor. Alliant FX/8 va fi folosit ca un ciorchine cu 
8 PE în proiectul Cedar, deja amintit ($1.1.8). Este de asemenea vindut 
separat, ca staţie de lucru Apollo Domain. Primele livrări s-au etectuat în 
1985. Modulul cu 1 CE este cunoscut ca Alliant FX/1. Acesta are memorie 
cache de 32 KB şi 1 sau 2 module de memorie de 3 MB. 


1.2. Clasificarea arhitecturilor 


Am văzut pe parcursul prezentării istoriei paralelismului că au fost 
„propuse un număr mare de arhitecturii paralele diferite, din care o parte 
au fost realizate, chiar dacă numai în forma experimentală, Încercările 
de a clasifica aceste sisteme nu au avut un succes unanim recunoscut și 
nu există încă (e 1987) o schemă de clasificare sau notație general accep- 
tate. Vom prezenta, totuşi, în §1.2.2 taxonomia lui Flynn (1972) și în 
$1.2.3 pe cea a lui Shore (1973) deoarece amindouă au fost discutate pe 
larg, iar unii termeni au fost adoptați de limbajul ştiinţei calculatoarelor. 
Deficienţele acestor clasificări constau în aceea că unele arhitecturi bine 
cunoscute, în special cele pipeline nu aparțin în mod clar unei clase, iar 
altele, ca ICL DAP, pot fi repartizate la fel unor clase diferite. O altă posi- 
bilitate este de a analiza modalităţile principale în care intervine parale- 
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lismul în arhitectura calculatoarelor actuale : pipelining, multiplicarea 
procesoarelor, paralelismul funcțional. Astfel, se realizează o apropiere 
mai mare de realitate, dînd naştere unei taxonomii mai uşor de aplicat 
decit conceptele teoretice ale lui Flynn şi Shore. 

Oricum, prima fază în definirea unei clasificări realiste este descrierea 
cu acuratețe și concizie a caracteristicilor esențiale ale arhitecturilor anali- 
zate, iar aceasta necesită o notație adecvată. De aceea, vom prezenta în 
paragraful §1.2.4 o notație care permite descrierea unei arhitecturi cu o 
singură linie de text. Este o metodă apropiată de exprimarea formulelor 
chimice pentru moleculele mari. Această notație este apoi folosită în §1.2.5 
pentru clasificarea structurală a calculatoarelor seriale și paralele prezen- 
tate în această carte. 


1.2.1. Nivele de paralelism 


Istoria arată că paralelismul a fost introdus încă de la început pen- 
tru a creşte eficiența utilizării calculatoarelor, iar aceasta s-a aplicat la 
nivele distincte care pot fi clasificate astfel : 


1. Nivelul job-ului 
(i) între job-uri 
(ii) între fazele unui job. 
2. Nivelul programului 
(i) între părţi ale programului ; 
(ii) în interiorul buelelor DO; 


3. Nivelul instructiuni 
(i) între fazele de execuţie ale instrucţiunii. 


4. Nivelul aritmetic şi al bit-ului 
(i) între elementele unei operaţii vectoriale ; 
(îi) în interiorul circuitelor logice aritmetice. 


La nivelul cel mai înalt, instalarea unui calculator are ca obiectiv 
maximizarea vitezei de execuţie a job-urilor. Execuţia unui job poate fi 
împărţită mai multe faze secvențiale, fiecare avînd nevoie de anumite 
programe şi anumite resurse hard ale sistemului. Fazele tipice pot fi: 
citirea codului sursă FORTRAN ; compilarea ; editarea legăturilor ; execu- 
ţia ; tipărirea rezultatelor. Deoarece operaţiile de I/E sint mai lente decit 
unitatea centrală, se introduc mai multe canale de I/E sau procesoare 
de periferice, care pot opera în paralel cu execuţia programului. Cele mai 
multe sisteme au un singur procesor pentru execuția programelor, dar 
unele au două sau mai multe. Sistemul de operare are sarcina de a organiza 
distribuirea resurselor pentru diferitele job-uri. De obicei sînt rezidente în 
memoria centrală a calculatorului mai multe programe (5—10), iar în 
cazul unui procesor, la un moment dat, se execută un singur program. 
Imediat ce programul solicită o operaţie de I/E care este lentă, aceasta 
este transmisă canalului I/E şi în execuţia unităţii centrale intră un alt 
program. Primul program aşteaptă. disponibilitatea tuturor datelor si pri- 
mește din nou controlul cînd celelalte programe sînt şi ele obligate să aş- 
tepte. Astfel, operaţiile de I/E ale unui job se suprapun cu execuţia altui 
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job, într-o manieră dinamică funcție de necesităţile job-urilor ce parta- 
jează, resursele calculatorului la un moment dat. 

Astfel de sisteme de operare nu cunose legăturile logice interne ale 
programului executat şi de aceea trebuie să urmărească execuţia secven- 
tială a diferitelor faze ale job-ului, ca de exemplu terminarea operaţiilor 
de ]/E înainte de a trece la execuţia unei noi instrucţiuni. În unele cazuri 
programatorul, poate controla, operaţiile de I/E şi planifica transferurile 
de date în blocuri. În aceste cazuri el poate folosi zone tampon pentru a 
suprapune operațiile de I/E cu execuția programului. Pentru zone tampon 
cu 3 nivele, de exemplu, se folosesc 2 canale iar în zonele tampon sînt 
stocate 3 blocuri de date. Simultan este citit în zona tampon un bloe nou, 
via canalul de intrare, datele din zona tampon 2 sint prelucrate de proce- 
sor, iar ultimul bloe de valori calculate este transmis canalului de ieşire 
via zona tampon 3. Calculele continuă prin modificarea ciclică a rolurilor 
zonelor tampon. 

Din cele de mai sus se observă că cerința principală a paralelismului 
la nivelul job-ului impune asigurarea: unui număr adecvat de resuxse multi- 
plicate, ceea ce este clasificat cu denumirea de paralelism funcțional. De 
aceea, este important de a identifica strangulările în activitatea sistemului 
pentru a suplimenta (sau reduce) resurse funcție de circumstanțe. 

Vom considera în continuare acel tip de paralelism ce intervine în 
execuţia unei faze dintr-un job. În interiorul unui program pot exista părți 
de cod care sint relativ independente una faţă de alta și pot fi executate 
în paralel de mai multe procesoare (de un set de microprocesoare, de. exem- 
nlu). Unele secţiuni de cod independente pot fi recunoscute printr-o analiză 
iE giv să a codului sursă, dar altele depind de date și astfel nu sînt cunoscute 
pină în faza de execuţie. În alt caz, execuțiile diferite ale unei bucle pot 
ti independente una de alta, funcție de instrucţiunile condiționale ale 
buclei. Fiecare microprocesor primește codul complet și se pot executa 
în paralel atîtea trasee în buclă cîte mieroprocesoare sint. Această situaţie 
apare la metoda Monte-Carlo şi are aplicaţii importante în ingineria: nu- 
cleară. Problemele de programare asociate cu astfel de structuri de micro- 
procesoare sînt un subiect de cercetare, şi multe sisteme au devenii opera- 
tionale în anii '80 (vezi §1.1.8 și $1.2.6). 

Toate companiile care produc calculatoare pentru operaţii cu vectori 
(Burroughs, TI, CRAY) au realizat compilatoare FORTRAN care recu- 
nosc cînd o buclă DO poate fi înlocuită cu una sau mai multe instrucţiuni 
vectoriale. Se recunosc, astfel buclele DO care reprezintă scalar un set de 
operaţii vectoriale ce pot fi executate mai eficient cu instrucțiuni vecto- 
riale. Principalele arhitecturi folosite sînt unităţile aritmetice pipeline pen- 
tru calculatoarele vectoriale pipeline (ex. CYBER 205, CRAY-1) sau 
multiplicarea elementelor procesoare în cazul masivelor de procesoare 
(ex. ICL DAP şi BSP). 

La nivel inferior am menţionat deja că execuţia unei instrucțiuni peate 
fi împărţită în mai multe suboperaţii, iar principiul pipeline poate ti folo- 
sit pentru suprapunerea, diferitelor suboperaţii ale diferitelor instrucţiuni. 
Această metodă este aplicată pe scară largă la procesoarele scalare rapide 
(ex. ICL 2900, AMDAHI, 470 V/6) şi unele masive de procesoare (ex. 
BSP). O parte din execuţia unei instrucţiuni este calculul aritmetic și 
aceasta poate fi împărțită la teri în suboperaţii ce se pot executa într-un 
pipeline. 
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La nivelul cel mai de jos, se poate interveni în logica aritmetică rea li- 
zind operaţii în mod serial pe bit sau pe toţi biții unui număr în paralel. 


apa: e 


intens studiată la prima generaţie de calculatoare a anilor '50. După ce 
execuţia operaţiilor în virgulă mobilă paralelă pe bit a devenit standard 
prin 1955, acest nivel de paralelism a fost uitat. Apariţia în anii '70 a 
microprocesoarelor a actualizat din nou metoda prezentată. Mai mult, 
dorinţa de a realiza masive mari de procesoare la un preţ rezonabil a impus 
execuția operaţiilor aritmetice serial pe bit, ca la STARAN și ICL DAP. 


1.2.2. Taxonomia lui Flyan 


Flynn nu și-a bazat clasificarea sa macroscopică a arhitecturilor para- 
lcle pe structura maşinilor, ci pe relaţia instrucţiune de executat-date de 
prelucrat. Un fluz (stream) este definit ca o secvență de informaţii (ins- 
trucţiuni sau date) interpretate de un procesor. Rezultă patru clase, funcţie 
de fluxul de instrucţiuni şi date unice sau multiple : 

(1) SISD — flux unic de instrucţiuni/flux unic de date. Acesta este 
calculatorul serial convenţional, denumit şi von Neumann, care execută 
un flux unic de instrucţiuni (pe o singură unitate procesoare). Fiecare ins- 
trucţiune aritmetică inițiază o operație aritmetică, conducind la un flux 
unic de date cu argumente şi rezultate legate logic. Este irelevant dacă se 
folosesc unităţi pipeline la execuţia instrucțiunilor sau a operaţiilor aritme- 
tice. Acestea sint calculatoare denumite anterior scalare. Iată cîteva exem- 
ple : CDC 6600 (fără pipeline), ODC 7600 (cu pipeline aritmetic), Amdahl 
470 V/G (pipeline pentru instrucţiuni). 

(2) SIMD — flux unic de instrucțiuni;fluxuri multiple de date. Acesta: 
este un calculator ce execută un flux de instrucţiuni, dar posedă instrucţiuni 
vectoriale care inițiază multe operaţii. Fiecare element al vectorului este 
interpretat ca aparţinind unui flux separat de date şi de aici, exceptind 
cazul degenerat al vectorilor cu un singur element, mai multe fluxuri de 
date. Această clasificare cuprinde deci toate maşinile cu instrucţiuni vec- 
toriale. Din nou, este irelevant dacă procesarea vectorială este realizată 
pipeline sau cu masive de procesoare. Exemple : CRAY-I (calculator vecto- 
rial pipeline); ILLIAC-IV (masiv de procesoare), ICL DAP (masiv de 
procesoare), OMEN 64 (masiv de procesoare). 


3)) MISD — fluxuri multiple de instrucţiuni/ilux unic de date. 
Această clasă pare a fi vidă, deoarece implică faptul ca execută mai multe 
instrucţiuni asupra aceluiași operand simultan. Flynn (1972) a menţionat 
că include în această clasă structuri specializate ce folosese mai multe 
fluxuri de instrucțiuni executate pe același flux de date. El nu dă exemple. 

(4) MIMD — fluxuri multiple de instrucțiuni/iluxuri multiple de date. 
Fluxurile multiple de instrucţiuni implică existenţa mai multor unități 
de prelucrare a instrucţiunilor şi în mod necesar mai multe fluxuri de date. 
Această clasă include toate formele de configurații multiprocesor, de la 
reţelele de calcul de uz general, la masivele de procesoare. 

Din punctul nostru de vedere, schema de clasificare prezentată suferă 
datorită generalităţii ei: toate calculatoarele paralele, excepiind multi- 


57 


procesoarele, intră în clasa SIMD şi nu face nici o distincţie între calcula- 
toarele pipeline și masivele de procesoare, care au totuşi arhitecturi în 
întregime diferite. Aceasta se datorește clasificării după funcţiile generale 
(indiferent dacă există sau nu instrucţiuni vectoriale) şi nu după arhitec- 
tură. În această carte noi sîntem, ca şi arhitectul, interesaţi de studierea 
detaliilor de organizare şi deci avem nevoie de o clasificare mai fină. 


1.2.3. Taxonomia lui Shore 


Spre deosebire de Flynn, Shore (1973) şi-a bazat clasificarea pe modul 
cum este organizat calculatorul din părţile componente. Au fost identifi- 
cate 6 tipuri diferite de maşini, fiecăreia atribuindu-se o cifră romană (vezi 
figura 1.3). : 

Mașina I Arhitectură convenţională, von Neumann, cu o singură 
unitate de comandă (CU), o unitate procesoare (PU), memorie pentru 
instrucțiuni (IM) şi memorie pentru date (DM). O citire a DM produce toţi 
biții unui cuvint, care sint prelucraţi în paralel de PU. PU poate con- 
ţine mai multe unităţi funcţionale care pot fi sau nu pipeline ; această clasă 
include atit calculatoare scalare pipeline (de exemplu, CDC 7600) cît şi 
calculatoarele pipeline vectoriale (CRAY-1), a căror similaritate a arhitec- 
turilor a fost deja menţionată. 

Maşina II Este similară mașinii I doar că un ciclu de citire a DM 
produce un bit slice; PU este organizată pentru execuţia operaţiilor în 
mod serial pe bit, Dacă considerăm memoria ca un masiv bidimensional 
cu un cuvint memorat pe linie, maşina II citește un slice vertical de biţi 
în timp ce mașina I citeşte slice-uri orizontale. Exemple: ICL DAP și 
STARAN. A 
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Fig. 1.3. Reprezentarea schematică a celor 6 clase de maşini de Shore 

(1973), Maşina I serială, pe cuvint, paralelă pe biț ; II, paralelă pe cuvint, 

serială pe bit;IH (= I +11), calculatorortogonal ; 1V, masiv neconectat ; 
V, masiv conectat ; VI, masiv cu logica în memorie. 


Mașina III Este o combinaţie a maşinilor I și II. Cuprinde o memorie 
bidimensională din care pot fi citite atît cuvinte cit şi bit slice-uri, un PU 
orizontal pentru prelucrarea cuvintelor și un PU vertical pentru prelucra- 
rea, de bit slice ; pe scurt acesta este calculatorul ortogonal a lui Shooman 
(1970). Atit ICL DAP cit şi STARAN pot fi programate să funcționeze 
ca maşini III, dar deoarece nu au PU separate pentru cuvinte şi bit slice, ` 
nu pot fi clasificate aici. Seria OMEN-60 este o implementare a maşinii III 
exact după definiţie (Higbie 1972). 

Maşina IV Aceasta se obţine prin multiplicarea PU și DM a maşinii 
I (definită ca un element procesor, PE) şi trimiţind instrucţiunile acestui 
ansamblu de PE de la o singură unitate de control. Un exemplu bine 
cunoscut este PEPE. Absența legăturilor între PE limitează aplicabilita- 
tea maşinii, dar face posibilă adăugarea de noi PE. 

Mașina V Aceasta este maşina IV cu facilitatea suplimentară că PE 
sînt aranjate pe o linie şi se asigură conexiuni între vecinii cei mai apropiaţi. 
Fiecare PE poate adresa informaţii din memoria sa, dar şi în cea a vecini- 
lor imediaţi. Exemplu este ILLIAC IV care asigură conexiuni între fie- 
care opt PE. 

Mașina VI Maşinile I—V menţin conceptul separării între memoria 
de date și unităţile procesoare, cu unele magistrale de date sau elemente 
de conectare între ele, deşi unele implementări ale maşinii II pe un bit 
(ICL DAP) includ PU şi DM pe aceeaşi placă. Mașina VI, ce implemen- - 
tează funcţii logice în memorie (logic — în — memory array sau LIMA) 
este o: abordare alternativă a distribuirii comenzii în memorie. Exemple 
sint de la memoriile asociative simple la procesoarele asociative complexe. 

Se poate observa că maşinile II—IV sînt subdiviziuni folositoare ale 
clasei SIMD a lui Flynn, iar maşina I corespunde clasei SISD. Din nou, 
calculatoarele vectoriale pipeline, care necesită clar o clasă separată, nu 
sint reprezentate satisfăcător, deoarece le-am găsit în aceeaşi clasă cu cal- 
culatoarele scalare ne-pipeline care nu au altă facilitate de paralelism decit 
execuţia operaţiilor aritmetice în paralel pe bit. De asemenea, nu satis- 
face numerotarea claselor și neutilizarea unor mnemonice semnificative. 


1.2.4. O notație structurală 


Primul pas în crearea unei scheme de clasificare este definirea unei 
notații adecvate. Ea trebuie să fie mai detaliată decit cele ale lui Flynn 
şi Shore pentru a diferenţia calculatoarele descrise şi a considera explicit; 
arhitecturile pipeline. Notaţia este structurală şi se bazează pe o coditi- 
care ce indică numărul instrucțiunilor, unităţilor de execuţie şi memorii- 
lor, modul lor de interconectare şi comandă. În acest sens se apropie de o 
formulă chimică, dar descrierea unui calculator este mai complexă: de 
exemplu, în chimie există un singur tip de atom de carbon, de notat că 
cei 3 izotopi naturali ai carbonului au aceeași structură electronică şi prin 
urmare aceeași chimie, în timp ce la un calculator trebuie distins între 
mai multe tipuri de unităţi de execuţie (pentru numere întregi, în virgulă 
mobilä, pipeline, bit serial etc.). O definiție matematică a sintaxei notaţiei 
este formulată în Apendix 1, cu ajutorul formalismului Backus Naun 
(BNF). 
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“Notaţia consideră un calculator format dintr-un număr de unităţi 
funcţionale care manipulează date, conectate și operind sub controlul uni- 
tăţii centrale. Cea mai simplă notație a unui calculator serial von Neumann 
în notație structurală este : 


€ = I[B—M] 


care defineşte calculatorul C ca fiind o unitate de prelucrare a instrucțiuni- 
lor I ce comandă unităţile din paranteză. Acestea sint o unitate aritmetică 
E legată cu o cale pentru date (linia de legătură sau strangularea von 
Neumann) la o singură unitate de memorie M. 

Se observă că notația noastră este similară cu PMS (Processor-Memory 
Switch) introdusă de Bell şi Newell (1971), de care diferă prin gradul 
mai mare de adecvare la obiectivul urmărit. Obiectivul nostru principal 
a fost de a permite o descriere cu o singură expresie pe o linie, sau pe foarte 
puţine linii, a arhitecturilor de ansamblu: într-o manieră algebrică, similară 
programelor de calculator. 

în particular dorim o notație îngrijită pentru masivele de proce;care 
de dimensiuni şi tipuri diferite unde ne interesează în gradul cel mai înalt 
numărul şi tipul unităţilor de manipulare a datelor și cum sînt coman- 
date. 

Notaţia structurală va folosi următoarele categorii: 

A. Unitătile (regulile 1—10)—definesc simbolurile pentru reprezenta- 
rea unităților şi combinarea lor în grupuri. 

B. Conexiunile între unităţi (regulile 11—16)— definesc notația căilor 
pentru date şi maniera de descriere a reţelelor complexe. 

C. Comentarii (regula 17) — permite includerea de informaţii supli- 
mentare într-un mod flexibil și deschis. 

D. Controlul unităţilor (regulile 18—20)— definesc diferitele tipuri de 
control care fac dintr-un ansamblu de unităţi un calculator. 

E. Exemple — prezintă cît de diferit pot fi descrise calculatoarele. 

A Unităţile 

(1) Simbolurile — se prezintă o listă alfabetică de simboluri pentru 
unităţile ce formează un calculator sau procesor : 

B O unitate de execuţie logică sau aritmetică în virgulă fixă sau 
mobilă. 

C Un calculator care este o combinaţie de unităţi ce includ cel puţin 
o unitate I. 

Ch Un canal de I/E care trimite date la sau primeşte date de la o 
unitate de interfaţă cu un dispozitiv de I/E şi memorie, independent de 
alte unităţi. 


D Un dispozitiv de I/E, de exemplu lectorul de cartele, unitatea 
de disc. Tipul dispozitivului este specificat de un comentariu în paran- 
teză. 

E O unitate de execuție care tratează date. Ea realizează funcții 
aritmetice logice şi de manipulare a biților. Se împarte în unități de tip 
F şi B, iar de obicei se numeşte ALU. 

F O unitate de execuţie în virgulă mobilă. 

H O cale de date sau switch. Transferă datele fără a le modifica, deci 
tără posibila lor reordonare (ex., rețeaua FLIP de la STARAN). 


60 


I O unitate de interpretare a instrucţiunilor care decodifică un flux 
unic de instrucţiuni şi trimite (sau emite) comenzi unităților de execuție. 
Controlează secvenţa instrucțiunilor cu un singur numărător de instrucţiuni, 
Este denumit adeseori IPU sau unitate de prelucrare a instrucţiunilor. 

IO O interfaţă de dispozitiv de I/E care primește date de la un dis- 
pozitiv şi le înregistrează într-un registru local sau vice versa. 

M O unitate de memorie uni-dimensională, de exemplu registre, 
memorii tampon, memoria principală, disc. 

O O memorie bi-dimensională sau ortogonală, 

P Un procesor definit la un ansamblu de unităţi, inclusiv o unitate 
E, dar fără unităţi I. 

S Un switch care interconectează alte unităţi, ca de exemplu o 
rețea omega. De obicei nu execută operaţii asupra datelor. 

U O unitate nespecificată. Este un simbol folosit cînd nu se poate 
aplica nici una din notaţiile anterioare. Natura unităţii este specificată 
de un comentariu în paranteză. Exemple sint unităţile de conirol inter- 
mediar într-un sistem complex. 

(2) Pipelining este indicat de litera mică ,,p” ce urmează simbolului 
unităţii, sau o structură în paranteză. Aceasta înseamnă că cel puţin o 
parte din operaţii sau suboperaţii se suprapun în timp, de exemplu: 

Ip o unitate de prelucrare a instrucţiunilor pipeline ; 

Ep o unitate de execuţie pipeline; 

{E < ——, —— >M} o structură în care citirea memoriei, execuţia 
operaţiilor aritmetice și scrierea în memorie sînt suprapuse. : 

(3) Instrucţiuni vectoriale sint indicate cu litera v” după simbolul I, 
dacă apar în setul de instrucţiuni. În cazul masivelor procesoare, la care 
toate instrucţiunile sînt operaţii cu vectori, simbolul este subințeles şi 
de aceea omis. De exemplu: 

Ipv o unitate de prelucrare a instrucțiunilor pipeline ce execută ins- 
trucţiuni vectoriale 

În o unitate ce execută instrucțiuni vectoriale, fără pipeline. 

(4) Unităţi diferite de acelaşi tip pot fi separate cu un întreg la sfirşit, 
de exemplu: 

Epl unitatea de execuţie pipeline numărul 1 

Ep3 unitatea de execuţie pipeline numărul 3; 

(5) Substituţia este încurajată, iar pentru mai multă, claritate se folo- 
sește notația ierarhică. De exemplu, tipurile definite cu regula (4) pot fi 
dezvoltate, cu utilizarea separatorului ,,;” : 


I[E1, E2]; Bl = ; E3= 


(6) Unităţi multiple — numărul unităţilor de același fel ce lucrează 
simultan se indică cu un număr întreg. În particular, o unitate complexă, 
deşi poate executa mai multe operații, dar la un moment dat execută 
una singură este considerată ca fiind una, de exemplu : 

E unitate de execuție multifuncțională pentru înmulțire, adunare, 
operații logice etc. ce realizează operațiile la un moment dat (ca la IRM 
1090) ; 

10E 10 unități funcţionale (independente pentru înmulţire, adunare, 
operaţii logice etc. ce lucrează simultan ca la CDC 6600. 


(7) Multiplicarea—o bară peste simbol, sau peste o structură delimi- 
tată de paranteze, { } indică că toate unităţile din grup sînt identice e.g. 
Gip = 64(E—M) 64 elemente procesoare identice, ca la ILLIAC IV. 

(8) Grupuri de unități sînt definite prin includerea unităţilor în paran- 
teză. Dacă unităţile sînt separate de virgule (separator concurent) pot lucra 
simultan şi deci în paralel. Dacă unităţile sînt separate de un ,,/” (separator 
secevențial) unităţile lucrează cîte una la un moment dat, adică secvențial, 
de exemplu : 

(4Fp, 2B} înseamnă 4 unităţi aritmetice în virgulă mobilă pipeline 
şi 2 unități nepipeline pentru operaţii cu întregi care luerează simultan ; 

(E1:£2/B3) trei unităţi de execuţie care lucrează secvențial. Într-un 
set de paranteze se poate folosi un singur separator, deşi o unitate multi- 
plă implică operarea simultană, de ex.: 

(3F1/B1) 3 unităţi în virgulă mobilă care lucrează simultan, dar sec- 
venţial cu o unitate în virgulă mobilă; 

3F1l = (F(--), F(*), F(+)) trei unităţi în virgulă mobilă ce lucrează 
concurent ; 

B1 = (B(+)/B(shift)! unitatea în virgulă mobilă conţine un sumator 
şi un registru cu deplasare care lucrează secvențial. Conform regulii (17), 
simbolurile din paranteză rotundă sint comentarii. 

(9) Numărul bitilor prelucraţi în paralel se indică cu un indice, 

Is o unitate ce execută instrucțiuni pe 16 biţi. 

Egg o unitate de execuţie pe 64 biţi. 

Fluxurile multiple de instrucţiuni prelucrate de o singură unitate I, 
ca la Denelcor HEP, pot fi indicate de un multiplicant cu numărul posibil 
de fluxuri, de exemplu: 

IPsors4 unitate de prelucrare a instrucţiunilor în interiorul PEM de la 

Denelcor HEP, care prelucrează 50 fluxuri de instrucțiuni a 64 biţi în 
manieră pipeline. 
Dacă se omite multiplicantul, se consideră un singur flux. Notaţia ce ur- 
mează este folosită pentru unităţile de memorie. Se tratează fiecare secțiune 
a memoriei care lucrează separat ca o unitate independentă. Se foloseşte 
un asterisc pentru înmulţire, de exemplu: 

NM o memorie unidimensională împărţită în n blocuri ; fiecare bloc 
conţine w cuvinte de b biţi, iar accesul se face pe b biţi în paralel; 

Miwe*s20 memorie de 1024 cuvinte a 32 biţi; 

8Me4+e4 cele 8 registre vectoriale de la CRAY-I, fiecare cu 64 cuvinte 
a 64 biţi; 

Os o memorie bidimensională ortogonală de w cuvinte a b biţi, 
iar accesul se face fie pe un cuvint de b biţi, fie pe un bit slice de w biţi. 

(10) Timpul caracteristic asociat cu lucrul unităţii se indică cu un 
exponent. Unitatea de măsură este nanosec., dacă nu se defineşte alta în 
text, de ex.: 

1% Unitatea de interpretare instrucţiuni cu un tact de 40 ns 

E2% unitate de execuţie cu un timp de operare mediu de 200 ns 

M5” unitate de memorie cu un timp de acces de 650 ns 

B. Conexiunile între unități 

(11) Magistralele de date se indică cu următorii conectori : 

— conexiuni de un tip nespecificat; 


< — conexiune simplă la stinga; 


— > conexiune simplă la dreapta; 

< — > conexiune full duplex ; 

(—[-—) conexiune half duplex. 
O conexiune simplă poate transfera datele numai în direcţia prezentată. 
O conexiune îull duplex transferă datele în ambele sensuri simultan. O 
conexiune half duplex transferă datele în ambele sensuri, dar nu în acelaşi 
timp. Folosind separatorii concurent și Perene, obținem : 

<— > o abreviere pentru {< —,— >} 

< —/— > o abreviere pentru teias] 

. Linioara de legătură poate fi multiplicată pentru a creşte impresia de 

descriere structurală : 


E —--—-->M; E— >M; E< ———|———>M 


Săgeţile pot fi tipărite cu simbolurile „mai mic ca” și „mai mare ca”. 
De notat folosirea ,,;” (ca la ALGOL 60) ca separator între expresiile 
structurale. Mărimea căii de date poate fi menționată sub conector în forma 
„numär de biţi” +(opţional) „numărul biţilor de adresă”. Astfel, 


aa bus de 64 biți pentru date şi 16 biți de adresă la fiecare 


8 conexiune simplă la dreapta pe 8 biți. 

Magistralele multiple de date se descriu cu semnul de multiplicare- 
(asterix), ca în FORTRAN. Se folosesc acoladele pentru grupări algebrice, 
Ree parantezele rotunde sînt rezervate pentru comentarii. De exem- 
plu : 

. 4*{64-+16} 4 magistrale identice full duplex, fiecare cu 94 biți de 
date şi 16 biți de adresă. 

O cale complexă sau switch este identificată special și explicat mai 
apoi, de exemplu : 


Partea din dreapta a unei astfel de definiții trebuie să conţină numai 
căi de date. 

(12) Conexiune în serie — un lanţ; de unităţi legate prin magistrale 
de date ca E—M1—M2—M3, descrie un set de unităţi ce sint conectate 
logic în serie ca la un circuit electric. 

(13) Conexiune paralelă — în sens logic o conexiune paralelă într-un 
circuit electric poate fi descrisă cu un separ rator concurent (,) sau secvențial 
(/) între unități (sau descrieri ale căilor paralele) şi incluzind lista între 
paranteze ( y Se obțineo flexibilitate mai mare prin introducerea sim- 
bolului nici o conexiune (|). O unitate poate fi conectată în afara paranteze- 
lor astfel : 


U conexiune externă nespecificată; 

—U| conexiune externă la stînga, nici o conexiune la dreapta 
JU— conexiune externă la dreapta, nici o conexiune la stinga ; 
—U-— conexiuni externe la stînga şi dreapta. 
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Dacă nu există ambiguitate simbolul , |” poate îi omis ; de exemplu dacă 
nu există nicăieri, conexiunea poate fi realizată în orice caz : 
—{U1, U2, U3} un grup de unităţi care pot opera concurent, conec- 
tate într-un mod nespecificat la magistrala de date la stinga; 
—{U1/U2/U3} — un grup de unităţi operind secvențial cu conexiuni 
nespecificate la magistrala de date la dreapta şi stînga; 
—{—U1—,—U2—,—U3—} — trei căi paralele ce operează concu- 
rent și poate fi desenat: * 


2U1— mui zi 
| 
vo 
U3 
—{U1—,|U2—, —U3—}— ca maisus, dar U2 nu este conectat la stinga, 
astfel; % 

{—U1—/—U2—/—U3—}— trei căi paralele alternative, lucrind 
secvențial; deşi acestea diferă ca operare în timp, nu diferă ca desen de 
al treilea exemplu de mai sus. 

Pentru a ilustra utilizarea descrierii căilor acestor conexiuni paralele, 
considerăm următorul exemplu : 
care poate fi deseris cu (U7—, U8—, U9—, U10}—{{—U6—/<—}— 
{—Ul—, [U2—, —U3—U4—, —U5|}/—>}—U11 
unde săgețile sînt căi unidirecţionale și alturnative. 
(14) Punctele de conectare sint specificate cu litere mici în interiorul 
sau la sfirşitul conexiunii; de exemplu : 


E—a—M, V<—/—>a 


Acestea pot specifica conexiuni lungi sau structuri care nu pot fi reprezen- 
tate în maniera ultimului paragraf. De exemplu, structura ce reprezintă 
trei calculatoare C1, 02, C3 conectate la 5 blocuri de memorie MI, M2, 
M3, M4, M5 este exprimată clar cu: 


O = {01—{a, b, c}, C2—{a, c}, 03—(b, c}, {a—M1, a—M2, e—M3, 
b—M4, b—M5} 


unde punctele de conectare a, b, c au fost definite ps blocurile de me- 
morie. În cazul conexiuni- 
u= RV lor multiple se observă uti- 
| aa | | lizareain paranteză alistei 
| [| TER punctelor de conectare. 
pi | E | 2044 Deci, punctele de conec- 
Îi “1 tare oferă posibilitatea 
u9 — petit descrierii unei reţele arbi- 
| trare de unităţi, în manie- 

| ra prezentată. 
49 A SE -e E ps (15) Masivele de pro- 
i - A cesoare sint de cele mai 
rnulte ori aranjate rectangular sau matriceal. Este deci natural să expri- 
măm un astfel de aranjament intr-o formă multiplicativă ce precede des- 


va — | 


—yus 
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crierea, procesorului. Folosim asterixul pentru multiplicare (ca la FOR- 
TRAN) şi puteri; de exemplu : 


128+64P un masiv de 8192 procesoare identice aranjate ca o matrice 
128+64 

642P un masiv de 64*64 
procesoare 

21 {2C} un hipereub 4-di- 
mensional cu 16 noduri. Fieca- 
re nod are 2 calculatoare. < 

Extinderea conectivitäții C2 C1 C3 
între procesoare este reprezen- l 
tată cuo mențiune la paranteze de formă „,c—nn”. Aceasta înseamnă că 
procesoarele pot transfera date direct la sau de la procesoare externe şi 
includ vecinii cei mai apropiaţi de ordinul e. Dacă c=0 nu există cone- 
xiune directă. De exemplu : 

28543 — Myo- PEPE cu 288 procesoare neconectate, fiecare cu 3 
unităţi de execuţie şi o memorie; 

C(64+61Pl-m ICL DAP cu conexiuni la cei mai apropiaţi 4 vecini” ; 

182=89pl2-m CLIP (Dutt 1978) care are conexiuni la vecinii de ordinul 
2. Aceasta; înseamnă S$ vecinii»), l 
Alte modele de conectare mai complexe pot fi specificate drept comentarii 
între paranteze. 


M M2 M3 Ms M5 
' : 


» | +%) N / 


(16) Conexiunea în cruce (reţele cu accesuri încrucişate sau alte rețele 
de comutare) între unităţile de execuţie și memoriile multiple se notează 
cu „X”. Detaliile reţelei de conectare trebuiesc explicate într-un text 
separat. 'Timpii de transfer ca și numărul de biţi transmis se notează ca 
mai înainte. De exemplu: 

Ip{[16F x 17M] BSP cu 16 unităţi de execuţie în virgulă mobilă 
conectate la 17 blocuri de memorie. 

Simbolul ,, X ” poate fi multiplicat pentru a creștelizibilitatea, iar astfel 
mai mulți „x ” sint identici din punct de vedere logic. Rolul exact îndepli- 
nit de un switch poate fi definit prin explicitarea funcţiei sale într-un 
comentariu (vezi regula (17)). De exemplu: 


nE x pa 2: + 

| 2+ | 
reprezintă permutarea considerată în $ 3.3.2 şi prezentată în fig. 3.9. În 
expresia de mai sus [f] este partea întreagă a lui f, iar |X| înseamnă 
că argumentul x este luat modulo 2% (vezi $3.3). Se poate folosi ca alterna- 
tivă și substituţia pentru mai multă claritate, de ex.: 


DE XH3xmM; H3=H( 32511) 


Xa + 2-1, k=1,... logn) xm 


Se poate specifica un switch și prin folosirea simbolului S. Acest lucru 
este avantajos cînd switeh-ul realizează conexiuni la o extremitate; de 
exemplu, cînd un număr de unităţi identice sînt conectate cu un switch 
într-un sistem MIMD sau cînd switeh-ul este o unitate a sistemului. De 
exemplu, 

C(Cedar cluster) = 8 CxS (switch omega local) 

C Comentarii. 

` Notația permite un plus de claritate prin folosirea, comentariilor. 

(17) Comentariile sint incluse în paranteze ( ) şi conţin informaţie 
opțională suplimentară despre simbolul precedent. Sintaxa este indiferentă, 
de ex.: 

M1” (bipolar)—M21%(MO8)—M3i»> (disc) o ierarhie de memorii ; 

Fp(*, ECL) un maltiplicator în virgulă mobilă, pipeline şi tehnologie 
ECL; 

Ip(4segs) [ J] un pipeline pentru interpretarea instrucțiunilor cu 4 
segmente. l 

De notat utilizarea cometariului ca exponent pentru a specifica uni- 
tatea de timp. Simbolul nespecificat (U) permite definirea oricărui tip de 
unitate, de ex. : 

U(2803) o unitate centrală IBM 2803. 

În cazul conexiunilor pentru date parantezele intervin între linii sau 
„X", de ex.: 

E—(halt mile coaxial line)—M; Ex (NBanyan network) xM. 

Se folosesc simboluri, bit (b) şi bait (B) cu unităţile SI uzuale şi con- 
venţia K=1024, M=K*K, G=K*K*K, T=K*K*K*K. 

D Comanda unităților i 

Un numär de unități sub comanda unui flux de instrucțiuni definesc 
un calculator. 


(18) Calculatoare şi procesoare. În cadrul notației menţinem convenția 
că un calculator este un grup de unităţi care pot prelucra instrucțiuni și 
deci conţine cel puţin o unitate I. În contextul arhitecturii de ansamblu, 
o unitate I este programabilă şi prelucrează fluxul de instrucțiuni al utili- 
zatorului. Cu această definiție un microprocesor este descris mai bine ca 
un microcaleulator. Cel mai simplu calculator este descris cu : 


C=I[E—M] 


Pe de altă parte, un procesor este orice mulțime de unităţi care pot 
prelucra date, dar nu prelucrează fluxul đe instrucțiuni al utilizatorului. 
Deci, conține o unitate E dar nu şi I. Cazul cel mai simplu ar fi: 


P=R-—M 


Această definiţie a procesorului este în concordanţă cu utilizarea frec- 
ventă a expresiei masiv de procesoare pentru un masiv de unităţi E—M 
aflate sub comanda comună a unei unităţi I exterioare, ca la ICI DAP. 

Distincția de mai sus nu este rigidă, deoarece multe unități „pe care 
noi le vedem ca unități de execuţie, sînt de fapt controlate prin micro- 
programe, ale căror instrucțiuni sînt de fapt prelucrate de unităţile E. Din 
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punct. de vedere al arhitecturii de ansamblu care ne interesează aici, pro- 
blema importantă este dacă o unitate este programată de utilizator. Dacă 
da, vom considera: că are o unitate I. Dacă nu, nu există deci unitate I 
deşi funcţionarea ei poate include un flux prestabilit de microinstrucţiuni. 
Similar, din acest punct de vedere, vom descrie registrele programabile 
ca părți ale descrierii unui calculator, deşi pot exista și alte registre in- 
terne ale calculatorului (de ex., între etajele unei unităţi de execuţie pi- 
peline). 

Nu este nici un motiv pentru care notația să nu fie folosită pentru 
descrierea în detaliu a structurii interne a unui pipeline aritmetic micro- 
programat sau microprocesor. În acest caz, toate registrele interne, pro- 
gramabile sau nu, vor fi descrise, iar unitatea de prelucrare a micropro- 
gramelor va fi clasificată ca o unitate I. Deci, este clar că înţelesul unei 
unităţi I depinde de utilizarea care i se dă notaţiei şi trebuie explicitată 
în text. 

(19) Extinderea comenzii exercitată de unităţile I sau C este ilustrată 
de [| ]. Unităţile comandate sînt trecute în interiorul parantezelor, sepa- 
rate cu ov irgulă dacă lucrează simultan sau cu ,,/” dacă lucrează, seeven- 
țial, de ex. 


IL (412 641P] o unitate (I1) master comandă 4 blocuri, fiecare cu o 
unitate (I2) ce comandă 64 procesoare identice ; proiectul original pentru 
ILLIAC IV; 


Ip[C1, 02, C3] unitate I pipeline ce comandă 3 calculatoare care pot 
lucra simultan ; 


C1[Ep1/Ep2]; C1=I[B—M] un calculator C1 de comandă care efec- 
tuează operații booleene, conține memorie și comandă 2 unități de execuție 
pipeline ce lucrează secvențial. 

(20) Tipul comenzii exercitată de unitățile I sau 0 poate fi indicat 
opțional cu indici, litere mici, ataşaţi la paranteze. Următoarele modali- 
tăţi sînt adecvate pentru descrierea calculatorului în acest volum. Altele 
pot fi descrise în comentarii : 

asincron (a) unităţile comandate au mai mult de un generator de tact. 
Generatoarele nu sint sincronizate, iar comunicațiile între unităţi sint 
coordonate de biții de stare și protocoale de transmisie. 

orizontal. (h) o instrucţiune compusă controlează funcţionarea unui 
set de unităţi diferite la fiecare tact, de ex. FPS AP-120B. | 

lockstep (l1) o mulţime de procesoare identice comandate sincron 
pentru a realiza aceeași operație în același timp, de ex. ICL DAP. 

issue-when-ready (r) instrucţiunile sînt transmise unităţilor de execu- 
ţie imediat ce acestea sînt libere, de ex. CRAY-I. 

De exemplu : 

I[10F, 10C], CDC 6600 cu 10 unităţi funcționale în virgulă mobilă, 
diterite și 10 calculatoare de I/O identice. Instrucţiunile sînt executate 
cînd unitățile sînt ready. 

C[64P], Illiac IV cu 64 procesoare identice comandate sincron (locks- 
tep mode). 

I[4C ]aeserierea controlului. Patru calculatoare comandate de o unitate I în 
manieră descrisă de comentariul din paranteză. 
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E. Exemple 
Prezentăm mai jos ecuaţiile care cat diverse calculatoare pentru 


a ilustra notația de mai înainte. Detaliile de descriere pot varia funcţie 
de necesităţi, de multe ori fiind de preferat o descriere ierarhică-arhitectura 
de ansamblu se prezintă în prima ecuaţie, iar detaliile apar în ecuaţii 
suplimentare, cînd este necesar pînă la nivelul registrelor individuale. 
Structurile mai complexe pot solicita extinderea formulei într-o 'a doua 
dimensiune, în maniera unei formule chimice. 

C(Z80-+ memory) = C(780) -Mess ` C(Z80)=1$ "(B-Msxsl 

C(INTEL 8086)=1;[B jg hxslis Mns 

C(EDSAC1)=1(B,—M]:M = M512%35 

C(IBM 7090)=1(Fas—M] 

C(CDC 6600)=I[10E 32M 105], ; 10E={4Fs, 6B} 

CCDG 7600)=I[9Ep—M—16P]; ; is {3Fp,6B}; 

M=32MI— 3M2 
C(IBM360/195)= 1p5i [2C—32M1160(1KB)—16M2800) ; 
2C={C1.C2};C1=1I[3Fp—M]; C2=I[B—M]} 

C(CRA Y-1)= Iv}? [12Ep!?—16M50]  12Ep={3FPe 9B} 

C(CYBER 205) = IN20(4Fpe— 512MÂ0 k32] 

C(TIASC(21PU, 4 pipc))=21vp[2Fp]--8M—8P 

C(ULLIAC IV(4 quadrant)) = C1 [402% [64P 111) ; 


PEFR Mas, 
C(PEPE)= C1 [31 [288{3E-M} ™]; C1=C(CDC7600) 
C(BSP)=10p[16F x17M] 

C(64x64 ICL DAP)=C[64£P] i ™ ;P o0 Bi— Migs 
C(STARAN)=1[32[256F, x Osos] —M . 
C(OMEN-64)= 15 [64B, — Og4x16 — E16] 

C(HYPERCUBE)=1[21C]; C=C(2+INTEL 8080) | 

C(HEP)=16 Cpsowga(PEM) x (packet switch) x 128 Meg (DMM) 
C(EGPA) = C(control) [2%C(boundary) [22G(array)]] 

CUCAP)=C(IBM host){10{ — (channel)— C(FPS 164/MAX)}] 


C(Cedar)=16C1(cluster) x S1(global omega switch) x 256 Miar:*6 
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1.2.5 O clasificare struetu rală 


Vom formula acum, cu ajutorul notaţiei introduse, o clasificare atit 
a calculatoarelor seriale cît și paralele. Subdiviziunile acestei clasificări 
sînt prezentate în fig. 1.4. Acestea sînt, în continuare, dezvoltate pentru 


Fig. 1.4. O clasificare a arhitecturii de 


pipeline calculatoare în sens general. 
sau muttiple 


Aritmeti 
EI 


Fig. 1.5. Clasificarea unicalcula- Mpoo > 
toarelor seriale folosind notația iseia |] iian noi] 


structurală din § 1.2.4. G FINER 
onnacrensaci | |iieccereițior | 
TM i—i 


1 Calculator `] 
„serial . 


calculatoarele seriale în fig. 1.5, iar pentru cele paralele în fig. 1.6 pină la 
1.10. Aceste figuri au o structură arborescentă şi astfel, există o singură 
cale din vîrful diagramei la oricare din clasele de calculatoare definite pe 
ultima linie. Un calculator ce aparţine la o clasă trebuie să posede practic 
toate proprietăţile enumerate în casetele traversate pentru a atinge acea 
definiţie. Fiecare clasă este ilustrată cu un calculator reprezentativ, 
împreună cu definiția canonică a clasei în notație structurală plus un 
nume. descriptiv pentru calculatoarele acelei clase. Inevitabil anumite 
calculatoare au proprietăţi ce aparţin la mai mult de o clasă. În această 
situaţie trebuie decis care este proprietatea dominantă. Sperăm că această 
situaţie se întilneşte rar, iar clasificarea este suficient de fină pentru a 
diferenţia între calculatoarele care trebuie tratate separat. 

La, nivelul cel mai inalt vom respecta clasificarea funcţională a lui 
Flynn, în sensul împărțirii calculatoarelor în cele cu un singur flux de ins- 
trucţiuni (SI) şi cele cu mai multe fluxuri de instrucțiuni (MIMD). 

În secţiunea $1.2.6 se prezintă o taxonomie pentru calculatoarele MIMD. 
Aici vom continua cu împărțirea mașinilor SI în cele cu o singură unitate 
Iin, cele cu o-singură unitate E ne-pipeline şi în cele cu unităţi E multiple 
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și/sau pipeline. Reamintim că o unitate poate executa numai o funcție 
la un moment dat (chiar dacă poate executa mai multe funcţii) o unitate 
E ne-pipeline conduce (fig. 1.5) la modul de execuţie secvențial, deci la 
toate calculatoarele seriale, în timp ce unităţile E multiple sau pipeline 


Pipe de | 
uz general 


6600 D 


Calculator scalar 
cu mai multe 
unităţi 


alculator vecteriali 
cu pipeline cu pipeline de 
funcționale uz general 


Calculator scalar 
cu pipeline 
orizontal 


Fig. 1.6. Unicaleulaloare paralele baazate pe paralelism funcţional şi pipeliniug. O clasificare 
a calculatoarelor prezentate în acceastă carle. 


permit diferite moduri de suprapunere a operaţiilor şi, în consecinţă familia 
unicalculatoarelor paralele (fig. 1.6. şi 1.7). 

Următorul nivel al clasificării se bazează pe tipul de aritmetică reali- 
zat de unitatea E. Diferenţa de complexitate între o unitate aritmetică pe 
1 bit (cu mai puţin de 10 porţi logice) și o unitate aritmetică în virgulă 
mobilă (mai multe mii de porţi logice) este suficient de mare pentru a de- 
termina categorii calitative distincte ce trebuie recunoscute. Spaţiul 
suplimentar necesar unităţilor în virgulă mobilă ridică probleme privind 
asamblarea masivelor de procesoare diferite de cele ale sistemelor de 
procesoare pe 1 bit. În consecință, masivele de procesoare în virgulă mobilă, 
și masivele de procesoare pe 1 bit diferă ca implementare şi proprietăţi. 
Pentru a include evoluţia istorică a calculatoarelor seriale, această clasă 
a fost împărţită în sistemele cu aritmetică pentru numere întregi şi a celor 
cu aritmetică în virgulă mobilă, iar prima clasă în cea a calculatoarelor 
seriale şi a calculatoarelor paralele. Această parte a clasificării este mai mult 
decit de interes istoric, deoarece cuprinde şi primele generaţii de microproce- 
soare (de ex. microprocesorul de 6 biţi). 

Fig. 1.6 ilustrează introducerea paralelismului funcţional și pipelining în 
cadrul calculatoarelor seriale, de unde vom separa în primul rind clasele 
de calculatoare cu şi fără unitate E pipeline. La stinga se află calculatoarele 
scalare cu unităţi multiple ne-pipeline, ca CDC 6600, care realizează în 
întregime performanţele sale prin paralelism funcţional. La dreapta cal- 
culatoarele pipeline se împart în cele cu sau fără instrucţiuni vectoriale 
explicite. Considerăm că această distincţie este necesară pentru a separa 
calculatoarele scalare de mare performanță ca CDC 7600 de cele vecto- 
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tiale pipeli ne precum CRAY-1. Din alte puncte de vedere aceste mașini 
sînt foarte asemănătoare. Calculatoarele pipeline cu instrucţiuni vectoriale 
se subimpa.rt în cele cu pipeline separate, specializate pentru fiecare tip 
de operaţie aritmetică (de ex. CRAY-1), şi cele cu una sau mai multe uni- 


tonectat salt ce Memorie | 
| în erute ] Gaians pane ortogenelă j 
$ |c=0 je M=0 

| 


x > 


| 
Bsp STARAN ICL DAP 
Fani en FE 
Un Fam, In (BF); Later 
Ansamblu de Masiv de lasm de procescari Masiv ce tateslator 
procesoare în (| | procesoare în | [în virgulă mebuă ee pe r rep ortogonal pe 
Nirgută, mobil virgulă mobil | |ecnectate in eruce. gia tva diji 


Fig. 1.7. O clasificare a masivelor de procesoare tratate în această carte (STA- 
RAN  estezelasificat pentru situaţia cind reţeaua FLIP nu realizează permutarea 
datelor). 


tăţi pipeline de uz general], fiecare îndeplinind mai multe tipuri de operaţii 
(de ex. CYBER 205). Calculatoarele pipeline care au numai instrucțiuni 
scalare se împart în cele la care o instrucțiune controlează toate unitățile 
în fiecare ciclu (control orizontal ca la FPS AP-120B)și în cele în care 
instrucţiunile sînt lansate unităţilor în mod individual cind sînt gata pentru 
a executa o operaţie (ca la CDC 7600). 

Alternativa obţinerii paralelismului prin replicarea procesoarelor sub 
control sineron-lockstep se prezintă în fig. 1.7. Din nou, acestea se împart 
în clasa calculatoarelor în virgulă mobilă şi în clasa celor pe bit (inclusiv 
masivele cu control sincron care folosesc microprocesoarele de 8 biți). 
Sistemele de calcul se mai pot clasifica şi după modul de conectare între 
procesoare, dacă sint neconectate (conectivitate c=0) sau conectate la 
vecini (e >1) într-un masiv d-dimensional. Alte forme de conectare aparţin 
clasei procesoarelor și memoriilor cu conexiuni încrucișate. În categoria 
procesoarelor pe bit se pot identifica sistemele asociative clasice cu proce- 
soare neconectate, în timp ce sistemele care folosesc memorii ortogonale 
sînt menţionate explicit. Multe calculatoare pot fi programate să adreseze 
atit „WORD SLICES” cit şi „BIT SLICE”, dar observați că pentru a 
respecta definiţia noastră calculatorul ortogonal trebuie să aibă procesoare 
word slices şi bit slices separate. Cu alte cuvinte, trebuie să fie implementat 
ca sistem ortogonal pentru a fi clasificat ca atare. 


1.2.6. O taxonomie pentru caleulatoarele MIMD 
Numărul mare de propuneri diferite pentru calculatoare cu fluxuri 
multiple de instrucţiuni, făcute în ultimii ani, din care numai citeva au 


fost descrise în $1.1.8, generează o confuzie privind proiectele de noi cal- 
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culatoare. Pentru a restabili ordinea, prezentăm în fig. 1:8, 1.9 şi 1.10 o 
taxonomie posibilă pentru aceste calculatoare MIMD (Hockney 1985 b, 
d). În cadrul ei am inclus numai calculatoarele controlate de fluxuri multi- 
ple de instrucţiuni convenţionale — aşa numitele calculatoare control-flow 
În $3.2.2 sînt luate în considerare 
formele mai noi de control pentru ex- 
ploatarea paralelismului, calculatoa- 


> Element vele numite data-flow şi reduclioniste. 
de calcul!CE) Fi 


Calculator j 7. a E rezintă ifi Ne- 
e TENS g. 1.8 Di tă Gaal icarew gene 
Sike A transputer 1 în sisteme pipeline, cu comutație 


conulere, (switched) și rejea (network). Flu- 
xurile multiple de instrucțiuni pot fi 
prelucrate fie de o unitate pipeline so- 
jisticată ce lucrează în time-sharing, 
fie de hardware separat (și în mod ne- 
cesar mult mai simplu) pentru fie- 
care flux. Prima alternativă este des- 
criză ca MIMD pipeline şi poate fi 
în; ilnită la Denelcor HEP în configu- 
rație cu un singur PEM (vezi $3.4.4). 
Sistemele MIMD ce folosesc a doua 
alternativă se împart în mod natural 


Recon- | oricare 


| figurabil) A . i : 

ai în cele en un switch separat și identi- 

Tig. 1.8. O taxonomie structurală a caleula- FICADIL (switched MIMD) pran cele în 
toarelor MIMD. care elementele de calcul sînt conce- 


tate într-o rețea recognoscibilă şi 
adesea expandabilă (MIMD networks). 


Memorie. 
oistribui 


| = 
| = | = 
în Cu mai Au a Cu mai ; 
cruce | [miesta] [rasistrată [Sit] |ooisrae 
st ULTRA MAC EMPRESS CHoPP PRINGLE 
fomegai 
Cmmp CEDAR MINERVA PASM 
(nega 
Midas TRAC GaN 
PA! {banyan} Butterfly T) 
[8SPI HEP 


ENCORE MULTIMAX 


R PSC 


Fig. 1.9. Diviziuni ale clasei calculatoarelor MIMD cu comutație. 
Sub numele clasei se dan exemple de calculatoare. Cele din paran- 
teze pătrate prezintă structura clasei, dar au control de tin SIMD, 
mai degrabă decit MIMD.În paranteză se specifică tipul comuta- 

torului cu mai multe etaje. ý 


La primele, toate conexiunile între calculatoare se realizează via comutator, 
care de obicei este destul de complex și formează o parte importantă a 
sistemului. La ultimele, elementele de calcul (CE) pot comunica direct 
numai cu vecinii din reţea iar comunicațiile la distanță mai mare solicită 
parcurgerea de către datele transmise a unui număr mare de CE interme- 
diare. De aceea, CE trebuie să conţină un calculator mic (un microproce- 
sor, de exemplu), o porţiune a memoriei sistemului și uń număr de cone- 
xiuni la elementele vecine din reţea. Transputerul INMOS (vezi $3.5.5) 
avind CE pe un cip, este un bloc de construcţie ideal pentru retelele MIMD. 


(-nL1j_|ICAP 


Stea 


= Doman] Îi în esles] 
pe Recon- 
farora; Cud figurabdi lerarhit 
AN d ý 
T EN | „| 
/ Ari N | A | j 
=, = = i 
4 Multi n Ciclur 
nei i pete m ag [orare] f aesere |Prromieă] [tiorctine 
ZM08 FEM COSMIC [BVM] CHP  NC-TREE EGI b 
CYBER  VFPP  INTELIPS super, xerme 0 i 
PLUS [0AP) N-CUBE 
(MPpi FPS-T 
(ILUIAC IV) AMETEK-1 
IRPA IMI) 


Vig. 1.10. Diviziuni în cadrul clasei de calculuteare MIMD cu rejea. 


În sistemele cu rejea, CE sînt noduri ale rețelei, de aceea mai pot fi denu- 
mite calculatoare nodale sau procesoare nodale sau elemente de procesare 
nodale. În cadrul notaţiei şi clasificării noastre, vor fi denumite elemente 
de calcul pentru a indica că sint calculatoare complete, cu o unitate de 
prelucrare a instrucţiunilor. Termenul PE (processing element) este rezer- 
vat pentru combinaţia între o unitate aritmetică și memorie, fără unitate 
de prelucrare a instrucţiunilor, așa cum se întilnește la calculatoarele 
SIMD ca ICL DAP (vezi $4.3.2). 

În fig. 1.9 sistemele cu comutare sint împărţite la rîndul lor în cele cu 
memorie distribuită tuturor calculatoarelor ca memorie locală, iar comu- 
nicaţia se execută via comutator (distributed-memory MIMD); în cele la 
care memoria este o resursă partajată, accesală de toate calculatoarele 
prin comutator (shared-memory MIMD). În continuare, mai este posibilă 
o împărţire funcţie de natura comutatorului, iar în fig. 1.9 sînt prezentate 
ca exemple conexiunile cu accesuri încrucișate, conexiunile cu mai multe 
eiaje şi înagistrală, atit pentru sistemele de tip shared-memory, cit şi dis- 
tributed-memory. Multe calculatoare mai posedă atit memorie partajată 
cît gi distribuită local. Astfel de sisteme pot fi considerate ca hibrizi sau 
switched MIMD. Noi preferăm clasificarea lor ca variante ale sistemelor cu 
memorie partajată, deoarece rezervăm sceţiunea cu memorie distribuită 
pentru sistemele fără memorie partajată. Clasificarea foloseşte localizarea 
memoriei ce păstrează permanent datele principale ale unei probleme. 
Memoria locală (sau cache) prezentă la aproape toate sistemele gi folosită 
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pentru memorarea temporară în cursul calculatoarelor, nu este relevantă 
pentru clasificare. 
Toate rețelele MI MD par să fie sisteme cu memorie distribuită, dar 
ele pot fi împărţite în continuare funcţie de topologia rețelei, ca în fig. 1.10. 
Reţeaua cea mai simplă este în stea, în care mai multe calculatoare sînt 
legate la un calculator gazdă comun, ca la sistemul ICAP de la IBM Kings- 
ton și Roma. Structuri simple sau multidimensionale se pot întilni la inelul 
Cyber Plus 1D, la NASA FEM şi Columbia VEPP. Calculatoarele ICL 
DAP, Goddyear MPP și ILLIAC IV sînt exemple cu structuri 2D, dar 
ele sint controlate de un singur flux de instrucțiuni şi deci sint mai mult 
calculatoare SIMD decit MIMD. Rețelele hipercub binare la care după 
fiecare dimensiune se întilnesc numai 2 calculatoare formează o clasă intere- 
santă ce a primit multă atenţie în cazul proiectelor Cosmic Cube şi a deri- 
vatului comercial, Intel iPSC. Mai există exemple de rețele ierarhice ce 
folosesc arbori, piramide (EGPA), ciorchini conectaţi la magistrale (Cm*). 
Reţeaua cea mai indicată va depinde cu siguranță de natura problemei de 
rezolvat, de aceea, ideea unei reţele MIMD reconfigurabilă prin program 
este atractivă. Acest deziderat este considerat în cadrul calculatorului 
CHIP, ca şi la ESPRIT Supernode de la Southampton (vezi $3.5.5 (v)). 


1.3 Analiza performantelor 


În sectiunea anterioară am discutat clasificarea arhitecturilor calenla- 
toarelor de la microprocesorul scalar simplu, calculatoarele vectoriale 
pipeline, la masivele de proc>soare. Acbste sisteme par a avea puţine 
trăsături comune, cea ce ne îndeamnă să definim doi parametri, în 
această secțiune, care caracterizează performanțele tuturor. calculatoare- 
lor seriale, pipeline şi a masivelor de procesoare, considerate ca membrii 
diferiți ai unui spectru continuu mai mult decit ca sisteme fundamental 
diferite. Desigur, o astfel de analiză simplistă poate fi privită ca o descriere 
generală, dar credem că e suficient să întreprindem o analiză cantitativă a 
performanţelor calculatoarelor pentru a alege apoi algoritmul cel mai bun 
de aplicat. Pentru a extrage descrierea generală simplă a tuturor calcula- 
toarelor seriale şi paralele vom explica mai întii, în detaliu, principalele 
căi de creştere a vitezei de calcul a unităţilor aritmetice. 


1.3.1. Arh teeturi seriale, pipeline și masive de procesoare 


Fig. 1.11 ilustrează modurile diferite de realizare a unei operați 
aritmetice de către arhitecturile seriale, pipeline și masive. Ca exemplu 
vom considera problema adunării a doi veztori în virgulă mobilă, x, și 
yı (i = 1,2,... n) pentru a obţine sum» vectorială z =x+y(i=l, 
2,....„n). Operația de adunare a oricărei perecui de elemnte (x = e2” şi 
y, = f21) este împărţită în patru suboperaţii cre, pentru simplitat2, vom 
considera că se execută în același interval de timp. Acəstsa sint : (i) cəm- 
pararea exponenţilor, prin diferența (p—q); (2) deplasarea lui x față da 
y cu (p—q) poziţii; (3) adunarea mantiselor calor două numere; și (4) 
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normalizarea rezultatului prin deplasarea lui z la stinga. La calculatoarele 
seriale cele 4 suboperaţii trebuie-executate cu prima pereche xı, yı pentru 
a produce primul rezultat z,, înainte de a se prelucra următoarea pereche. 

Modul de lucru secvențial este ilustrat în centrul figurii 1.11, unde 
se presupune existența unei axe a timpului cu originea în partea de sus a 
figurii. Dacă 1 este numărul de suboperaţii (în acest caz 1 = 4) şi 7 este 
timpul necesar pentru finalizarea, fiecăreia (de obicei coincide cu perioada 


x=ex2P Y=fu 
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Fig. 1.11. Compararea arhitecturilor seriale, pipeline 
şi masive. 
orologiului) atunci timpul necesar pentru a produce un vector de lungime 
n este 


team = ln (1.18) 


iar viteza maximă de obţinere a rezultatelor este 


Teoseriai = (l7)? 


(1.1b) 


În cazul prelucrării seriale, circuitele responsabile pentru fier are din cele 
1 suboperaţii sînt active numai i/l din timpul total. Această situaţie este 


75 


în sine ineficientă, mult mai evidentă dacă realizăm o analogie cu linia 
de asamblare a automobilelor. Suboperaţiile necesare pentru obţinerea 
sumei a două numere pot fi comparate cu suboperaţiile necesare producerii 
unei mașini : de exemplu, (1) fixarea caroseriei pe şasiu ;(2) atașarea mo- 
torului ; (3) atașarea roţilor și (4) montarea ușilor. Prelucrarea secvențială 
corespunde unui singur grup de muncitori ce realizează o suboperaţie la un 
moment dat și unei singure mașini aflată în curs de asamblare. În mod 
clar, în exemplul nostru, trei sferturi din ansamblul liniei de asamblare- 
muncitori este nefolosit. 

Linia de asamblare devine eficientă prin aceaptarea unei noi mașini în 
suboperaţia (1) imediat 02 maşina anterioară a trecut la suboperaţia (2). 
În acest mod este începută o maşină la fiecare t unităţi de timp şi, cînd 
linia este complet ocupată, se termină o maşină de fiecare t unități de 
timp. De multe ori spunem că operaţiile formează un pipeline, iar în 
exemplul nostru sint 4 mașini în stagii diferite de asamblare pe linie şi 
nici un muncito: nu stă degeaba. Acest principiu este folosit pentru creşte- 
rea vitezei de obţinere a rezultatelor în unităţile aritmetice pipeline şi 
este prezentat; în stinga fig. 1.11. Diagrama de timp arată că creşterea de 
viteză se obţine prin suprapunerea (prin execuția în ac2lași timp sau în 
paralel) a diferitelor suboperaţii cu diferite perechi de operanzi. Timpul 
necesar pentru obţinerea, ca rezultat al unei operaţii, a unui vector de 
lungime n este prin urmare 


tipe =[s+l+(n—1)]= (1.28) 


unde srt este timpul de iniţializare (set-up) necesar pentru încărcarea liniei, 
de a calcula prima şi ultima adresă pentru fiecare vector ca şi alte operaţi. 
suplimentare. Este inclus, de asemenea, şi timpul necesar transferului 
numerelor între memorie şi pipeline. 1 este numărul fazelor sau al segmente- 
lor din pipeline și deci diferă pentru operaţii aritmetica diferite. Cind este 
încărcat gi deci operează continuu, un pipeline livrează un rezultat la fie- 
care t perioade de ceas, de aici 


Toopipe = T~! (1.2b) 
Comparind acest rezultat cu ecuația (1.1b) se observă că se obține, în acest 
caz, o creștere a vitezei de cel mult l ori numărul suboperajiilor ce se execută 
simultan. 

Din cele de mai sus este evident că orice operaţie care poate fi impăr- 
ţită în suboperaţii de durată egală, poate fi implementată în pipeline. Un 
exemplu obişnuit este unitatea pipeline de execuţie a instrucţiunilor la 
care se suprapun următoarele faze : (1) decoditicarea instrucţiunii ; (2) 
calculul adresei operanzilor ; (3) extragerea operanzilor ; (4) trimiterea ca- 
menzilor unităţilor funcţionale ; și (5) extragerea următoarei instrucțiuni, 
Exemple : IMB 360/91, ICL 2980, AMDAHL 4C0V/6. Alte calculatoare, 
ca BSP, suprapun operaţii ca (1) extragerea din memorie; (2) operaţii 
aritmetice ne-pipeline și (3) memorarea rezultatelor. Mașinile care au un 
pipeline aritmetic nu au în mod necesar un repertoriu de instrucţiuni vecto- . 
riale (de ex. CDC 7600, IBM 360/195). Maşinile cele mai importante cu 
unitate pipeline aritmetică şi instrucțiuni vectoriale sînt CDC STAR 100, 
CYBER 205, TIASC şi CRAY-I. l 
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O altă posibilitate de a creşte viteza unităţii aritmetice este de a 
multiplica unităţile de execuţie şi de a forma un masiv de elemente 
prccesoare (PE) sub controlul unui singur flux de instrucţiuni. Toate PE 
exccută aceeași operaţie aritmetică în același timp, dar asupra unor ope- 
ranzi, diferiţi, steeaţi în memoriile lor locale. Dacă sint N astfel de proce- 
soare şi N<n, primele N perechi (x, yı) pot fi prelucrate simultan, 
într-un interval de timp pe care îl notăm cu t| (47 în ex. nostru). Apoi 
sint încărcate următoarele N elemente pentru a produce N rezultate în 
tı unităţi de timp, $.a.m.d. Diagrama de timp este prezentată în partea 
dreaptă a fig. 1.11. Concludem că timpul necesar pentru a calcula un vec- 
tor de lungime n cu un astfel de calculator este 


4 tarray = ti: [n/N] (1.3a) 
şi 
Tooarray = Niti (1.3b) 
unde [x | este cel mai mic întreg mai mare sau egal cu x, Funcţia dă numă- 
rul de repetiţii necesare dacă vectorul are mai multe elemente decit numă- 
rul de procesoare. Viteza maximă de calcul se atinge cînd n este un întreg 
multiplu de numărul de procesoare ; se obţine o creștere a vitezei de N 
ori față de un procesor serial cu acelaşi tip de unitate aritmetică. 

„ Calculatoarele au evoluat sub forma procesoarelor în virgulă mobilă 
nepipeline, ca ILLIAC IV (64PE), BSP (16PE), cît și ca masive foarte 
mari de procesoare pe 1 bit: STARAN (256PE) şi ICL DAP (4096PE). 
Ultima; alternativă devine.de mare interes cînd se implementează în teh- 
nologie VLSI, ideală pentru multiplicarea pe scară largă a structurilor 
logice simple. Există şi posibilitatea unor variante de mijloc constituite 
din masive de microprocesoare comerciale existente (de 4; 8 şi 16 biţi). 
De asemenea, pentru atingerea unor anumite performanțe, se poate alege 
între citeva unităţi pipeline aritmetice optimizate şi un masiv de proce- 
soare mai simple. Diferențele sint; evidente pentru următoarele sisteme 
comerciale competitive : CRAY-1 (2 unităţi pipeline aritmetice), BSP (un 
masiv de 16 procesoare în virgulă mobilă ne-pipeline) şi ICL DAP (un 
masiy de 4096 procesoare pe 1 bit). Principiile de calcul pipeline și de mul- 
tiplicare a procesoarelor pot fi îmbinate într-o o structură de masiv de 
microprocesoare pipeline. în jurul anilor 85, deşi erau în uz sisteme cu 
unităţi pipeline multiple (de ex. CDC CYBER 205 și CRAY X-MP), nu 
existau masive multidimensionale de procesoare pipeline. 

Lucrarea (Graham 1970) realizează o prezentare bună a acestor două 
concepte. O analiză mai detaliată a arhitecturii pipeline, incluzind discuta- 
rea unor proiecte actuale, poate fi găsită în Ramamoorthy și Li (1977) şi 
Kuck (1978), iar aspectele inginerești, în Jump şi Ahuja (1978) ca şi în 
lucrarea lui Koogge (1981), denumită „The Architecture of Pipelined 
Computers”. Arhitecturile de masive sînt analizate de Thurber și Wald 
(1975) şi de Thurber (1976). 


1.3.2. Parametrii de performanță (ro; n) 


Vom folosi drept criteriu unic pentru arhitecturile diferite ce au fost 
descrise în secţiunea anterioară, performanţele calculatoarelor pentru o 
singură operaţie aritmetică cu un vector de lungime n. Aceasta va fi expri- 
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mată cit mai apropiat de formula generală a timpului de operare, t, ca o 
funcție de lungimea vectorului : 


t = Tai (n + ny) (1.4a) 


Cei doi parametri, n,2 Şi r» descriu complet performanţele hardware 
ale unui calculator generic ideal și dau o primă descriere a oricărui calcula- 
tor real. Aceşti parametri caracteristici se numesc : 

(a) lungimea corespunzătoare performanţei jumătate (the half-pertor- 
mance length n,/2)-dimensiunea vectorului necesar pentru a atinge jumătate 
din performanța maximă ; 

(b) performanța maximă sau asimptotică TYa—viteza maximă de calcul 
în unităţi de operaţii în virgulă mobilă efectuate pe secundă. Pentru un 
calculator ideal acest parametru are o creştere asimptotică odată cu 
creșterea numărului de componente ale vectorului (lungime) spre intinit. 
Unitatea de măsură pentru execuţia în virgulă mobilă este milionul de 
operaţii în virgulă mobilă pe secundă (megaflop/s sau Mflop/s). 

Dacă n< n, pp este mai convenabil să se folosească formula echivalentă 


t = mo [1 + (n/np2)] (1.4b) 


unde ze = 7o/hp este denumită performanţă specifică. 

Cind se deduc valorile medii pentru n, Și re corespunzătoare unei 
secvenţe de operaţii vectoriale trebuie să ne amintim că t este definit ca 
timpul. necesar pentru operarea unui vector de lungime n. Astfel, dacă a 
operaţii aritmetice vectoriale consumă timpul 


T=b-+en (1.40) 
atunci 
t = Tla = (cja) (n + b/e) 


De aici, prin comparaţie cu ecuaţia (1.42) 
ro = a/c, D, =b/e (1.4d) 


de unde este elar că sporind viteza tuturor circuitelor calculatorului cu 
acelaşi factor f (prin împărţirea lui b și c cu f), de exemplu prin micşora- 
rea perioadei ceasului, se creşte performanță asimptotică cu același factor 
fără a modifica n. 

Semnificaţia, celor doi parametri este destul de diferită. (ro) caracteri- 
zează în primul rînd tehnologia folosită. Este un factor de scală aplicat 
performanţelor unui calculator particular care reflectă tehnologia în care 
a fost implementat. Mai mult, dacă comparăm performanţele (definite ca 
proporționale cu inversul timpului de execuţie) diferiților algoritmi execu- 
taţi pe acelaşi calculator, ro nu joacă aici un rol în alegerea algoritmului 
cel mai bun. De aceea acest parametru nu intervine în discuţia algoritmi- 
lor din cap. 5. 


78 


Pe de altă parte, lungimea performanţei jumătate (n,2), este o măsură 
a paralelismului ce caracterizează arhitectura calculatorului. Vom vedea că 
variază între D= 0 pentru calculatoare seriale şi fără nici o operaţie 
paralelă şi ny„= co pentru un masiv infinit de procesoare. Astfel, se reali- 
zează o apreciere cantitativă a paralelismului arhitecturii calculatoarelor. 
Deoarece n, nu apare ca factor în ecuaţia (1.43), compararea, algoritmilor 
diferiți executaţi de un calculator se întreprinde prin aprecierea valorii lui 
n,jo. Lungimea vectorului (sau lungimea medie), n, măsoară paralelismul 
problemei, iar raportul v = n/n arată cît de paralel este un calculator 
în raport cu o anumită problemă. Dacă v = 0 sau mai mic, atunci un algo- 
ritm proiectat pentru un mediu secvențial sau serial va fi cel mai indicat, 
iar dacă v este mare algoritmul proiectat pentru un mediu paralel se dove- 
deşte a fi cel mai bun .Cap. 5 cuprinde o analiză a influenței lui n, sau v 
asupra performanțelor algoritmilor. ; 

Este evident, pe baza ecuației (1.2a), că pentru un calculator pipeline 
orice overhead, ca de exemplu timpul de inițializare, contribuie la valoarea 
lui n, deşi nu reprezintă o caracteristică arhitecturală. Numărul etajelor 
în pipeline, |, din această expresie, este o măsură a paralelismului hardware, 
deoarece reprezintă numărul operațiilor executate în paralel. Deci, nu este 
adevărat în mod absolut că n, măsoară întotdeauna paralelismul hard- 
ware, dar îl putem defini ca o măsură a paralelismului aparent al hard-ului. 
Din punctul de vedere al utilizatorului, comportarea calculatorului este 
determinată de expresia {1.4a). Un calculator pipeline cu un n, mare se 
comportă ca și cind ar avea un grad înalt de paralelism hardware, chiar 
dacă aceasta s-ar datora unui timp de inițializare mai lung. 

Şi, pentru utilizator, nici nu contează cît de mult din paralelismul 
aparent este real. Din acest motiv nu vom face în continuare o distincţie 
între paralelismul real și aparent ; ne vom referi la n, ca la o măsură a 
paralelismului calculatorului. 

Formulind ecuaţia (1.4a) în termenii timpului de inițializare, tọ, şi a 
timpului necesar pentru obţinerea unui rezultat, t, obţinem : 


t= to + nt = (n + toft) (1.4) 


care, prin comparaţie cu ecuaţia (1.42), corespunde la: 


unde 


Too = r-i 


'Comparaţia ecuaţiilor (1.4a) şi (1.4e) conduce la alte 2 interpretări ale 
semnificației lui n, 2. Prima, n,» măsoară numărul de operaţii în virgulă mo- 
bilă care s-ar fi putut executa în cursul timpului de iniţializare tg. Deci, 
măsoară importanţa, în termenii operaţiilor în virgulă mobilă pierdute, 
timpului de iniţializare pentru utilizator. A doua, cînd lungimea vectorului 
este egală cu n,2 primul și al doilea termen al ecuaţiei (1.46) sînt egali, și 
jumătate din timp s-a consumat pentru inițializare (primul termen), iar 
cealaltă jumătate pentru execuţia unor operaţii aritmetice folositoare (al 
doilea termen). 
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Analize anterioare ale timpului de execuţie efectuate de Calahan (1977), 
Calahan şi Ames (1979), Heller (1978) şi Kogge (1981) folosesc mai degrabă 
expresii liniare ca ecuaţia (1.4e), şi nu expresia (1.4a). Toţi aceşti autori 
recunosc importanța raportului (tọ/7), dar nu-l folosesc ca parametru de 
prim ordin. Noi considerăm că pentru compararea calculatoarelor și a 
algoritmilor, timpul absolut de iniţializare nu este de importanţă majoră, 
ci raportul lui la r necesar pentru obţinerea unui rezultat. De aceea, folo- 
sim pentru acest raport simbolul n; pe care îl utilizăm ca element central 
al analizei noastre. 

Din cele de mai sus este clar că o analiză a valorii n, poate fi aplicată 
oricărui proces care respectă o relaţie liniară ca (1.4a) sau (1.4e). Un caz 
evident este cel al operaţiilor de intrare/ieșire (I/E). În cazul multor pro- 
bleme timpul necesar operaţiilor de I/E domină timpul de calcul. Obține- 
rea datelor de pe disc se face cu un timp mare de iniţializare necesar pentru 
deplasarea braţului și căutarea pistelor. Cu alte cuvinte, timpul necesar 
accesării a n elemente respectă ecuaţia (1.4€), care este cel mai bine in- 
terpretastă prin folosirea ecuaţiei echivalente (1.4a) și a parametrilor roo 
şi n, p. Viteza maximă, rco, se măsoară în MB/s iar n, 2 ar fi lungimea blocu- 
lui măsurat în octeți, necesar pentru atingerea unei viteze de transfer medii 
12 ro. De obicei, valorile lui n, sint foarte mari pentru sistemele de I/E, 
ceea ce arată că sint de dorit transferurile cit mai rare ale unor blocuri 
mari de date (n>n,p). 


1.3.3. Măsurarea lui nz ȘI Foo 


Cei doi parametri pot fi analizaţi cel mai bine prin determinarea expe- 
ximentală a timpilor de execuţie pentru probleme de test: 


CALI, SECOND (T1) 
CALL SECOND (T2) 
TO=T2-—Ti 
DO 20 N=1,NMAX 
CALL SECOND (T1) 
DO 10 T=1,N 
10 AD = BO)C() 
CALL SECOND (T2) 
29 'r=T2-T1-—TO 


sau codul în limbaj de asamblare echivalent. Bucla DO 10 de mai sus ar 
fi înlocuită de orice compilator vectorial cu o instrucţiune vectorială. 
Măsurarea, și scăderea timpului de apel al subrutinei, TO, este necesar 
pentru o măsurătoare de calitate. NMAX este lungimea maximă a vectoru- 
lui, iar SECOND este o subrutină de calcul al timpului UC în secunde. 
Dacă se trasează apoi t funcţie de n se obţine o dreaptă ca în fig. 1.12. In- 
tersecția cu axa n, în domeniul valorilor negative, dă valoarea lui n,2; 
iar inversul pantei de pe dreaptă dă valoarea lui ræ. Rezultatele pre- 
zentate în figură sînt obținute.cu un CDC CYBER 205 și sint tipice pentru 
o mașină pipeline. 
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„Valoarea lui n,» se poate afla și din informațiile furnizate de producă- 
tori. De obicei acestea vor fi sub forma ecuației (1.6a). 


t= (s +1+(n— 1)) (1.6a) 


r 


de "a prin comparaţie cu ecuaţia (1.42) se obtine pentru un calculator 
pipeline i 


p 2 Í 
N 5. =8 LI l — ȘI - / 
şi 1/2 Ra z (1:60) v Pania=rei 
fo = z1 (1.6c) 
A si a 


Deoarece lungimea unităţii = 
pipeline, 1, depinde de operațiace Š £ o 
este executată, nı nu poate fi 
absolut constant pentru un anumit 
calculator. Va depinde de modul 
de realizare a operaţiei și de modul i 
de utilizare a calculatorului. În Fy À 
particular, codul necesar ce apare Tg | 
în controlul buclelor, introdus de 3 0 2 L 6 1013 
compilator, va apare ca un adaos i n? 
software la valoarea lui s și de aici Fig. 1.12. Măsurări ale parametrilor n1/2 şi roo 
o valoare crescută pentru n, 2. Cu penmi w ol ral E r NE 
aceste onservații, considerăm nz (1970) pentru CYBER 203E cu două unităţi 
un parametru util pentru carac- pipeline ; n1/2 = 100, re = 10MIIopfs. 
terizarea performantelor vectoriale. 

Pentru calculatoarele seriale, compaind ecuaţia (1.1a) cu formula 
generală (1.4a) obţinem 


fi 


w 


Niz = 0 şi ro = (Iv)! (1.6d) 


Caracterizarea masivelor de procesoare cu parametrul n, este 
mai puțin evidentă, deoarece formula (1.3a) este discontinuă, lucru ilustrat 
şi de fig. 1.13. Cel mai bine este să se distingă două cazuri funcție de lun- 
gimea vectorului n în raport cu numărul procesoareor. N. Dacă n < N 
masivul este încărcat total sau parţial o singură dată. Astfel, timpul pentru 
o operaţie paralelă este independent de n și egal cu ty. În această circums- 
tanță, din punct de vedere al problemei de rezolvat, masivul apare ca şi 
cum ar avea un număr infinit de procesoare. Limita corectă se obţine cu 
formula generală (1.4b) dacă luăm 


Dap = © Şi my = ti pentru n < N (1.7a) 
Pe de altă parte, dacă n > N, sistemul va fi încărcat de mai multe 
ori, iar cea mai bună caracterizare o obținem dacă luăm ca aproximare 


generală o linie ce reprezintă comportarea medie a sistemului. Aceasta, este 
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linia întreruptă din fig. 1.13 care trece prin centrul pașilor ce definesc per- 
formanţa actuală. Se obţine: 


Due = N/2 și ro = N/ty pentru n >N (1.7b) 


t7tu 


2 
n/N 


Fig. 1.13. Timpul t pentru operații cu vectori de lungime n 

pe un masiv de N procesoare (linia plină). Aproximația linia- 

ră cea mai bună (linia întreruptă) arată că n, = N/2 și 

r = Nitu, unde tı este timpul necesar unei operații para- 
lele executate de masiv. 


O situație mult mai complicată intervine în cazul masivelor de proce- 
soare pipeline — de exemplu CDC NASF. În acest caz timpul de execuție 
este 


t= ss +1 — 1) + M/N (1.8) 


unde N este numărul de pipeline aritmetice identice, iar st şi l sint timpul 
de inițializare şi numărul de segmente ale fiecărui pipeline. Acest rezultat 
poate fi înțeles gindindu-ne la sisteme ca niște pepilene ce execută sub- 
operaţii cu supercuvinte, fieca- 
re format din N numere, Atunci, 

[n/N] este numărul acestor su- 

percuvinte care trebuie prelu- 
crate şi înlocuiește pe n în 
ecuaţia (1.62). Această ecuație 
este reprezentată grafic în fig. 

1.14 (linia plină) împreună cu 

aproximarea generală (linia în- 

treruptă), de unde concluzio- 

năm : 


Dy = N(s + 1—1/2) şi ro=N/r 
(1.8b) 


Fig. 1.14. Măsurarea lui na/. pentru un pasiva N 
ităţi pipeline. Linia plină reprezintă timpul ac- 230) A en 
tual, tea întreruptă pe cel generic. În acest Neglijind diferenţa nesemnifi- 
exemplu, ns = 5,5N,r = Nityşis+ 1 = 6. cativă între 1 şi 1/2 din for- 
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mulele(1.6b)și (1.8b) pentru n,p, vedem că multiplicind unitatea pipeline de 
N ori, se obţine numai o majorare a ratei maxime de N ori, dar şi a lungimii 
corespunzătoare performanţei medii de același număr de ori. Ultimul rezul- 
tat era de aşteptat dacă interpretăm n; ca expresie a cantităţii de parale- 
lism în sistem, adică numărul total de operaţii ce se realizează în paralel. 
Paralelismul a N unităţi pipeline este de așteptat să fie atunci de N ori mai 
mult decît paralelismul unui singur pipeline. 


1.3.4. Spectrul ealculatoarelor 


Cei doi parametri, n, 2 Și re ne permit să comparăm din punct de vedere 
cantitativ paralelismul și performanţele maxime ale tuturor calculatoarelor. 
Este foarte instructiv să analizăm poziţia relativă a diferitelor calcula. . 
toare în planul (n,/2; ro). O astfel de diagramă care poate fi privită ca defi- 
nind un spectru al calculatoarelor, este reprezentată în fig. 1.15 și cu- 
prinde calculatoarele prezentate în această carte. Axa verticală ra este 
performanţa maximă în megaflop/s, iar axa orizontală (n;;2) exprimă para- 
lelismul arhitecturii. Astfel, un calculator este reprezentat de un punct 
al planului. Deoarece, de cele mai multe ori, un calculator este utilizat în 
moduri diferite cu nivele variabile de paralelism, el poate fi reprezentat 
cu o linie continuă ce leagă tocmai aceste puncte. Cu linii întrerupte se 
reprezintă evoluțiile parcurse de diferitele arhitecturi. Utilizînd o scară 
logaritmică, se marchează în mod arbitrar sistemele seriale (n, = 0) 
pe linia n,pp=— 1. Această alegere este acceptabilă deoarece, cind prelu- 
crează vectori, calculatoarele seriale prezintă o valoare a lui n, mică, 
diferită de 0. 

Am menţionat că multiplicind un procesor de N ori, atit n cit și 
To crese de N ori și, în consecinţă, sistemele ce se obţin prin multiplicare 
se vor găsi pe aceeaşi dreaptă la un unghi de 45°. Ca exemplu, cităm modu- 
rile de operare ale sistemului ICL DAP reprezenta în dreapta jos ; ver- 
siunile cu 1, 2 şi 4 unităţi pipeline ale sistemului TIASC și cu 2 şi 4 uni- 
tăţi pipeline ale lui CYBER 205, reprezentate în centrul figurii ; şi evoluţia 
proiectului BSP cu 16 PE în proiectul NASF Burroughs cu 512 PE. De-a 
lungul acestor linii raportul r/n,/2, performanţa pe unitatea de paralelism, 
este constantă. Acest raport notat cu xp, este mai specific unei anumite 
familii de calculatoare decit n, sau ra considerate separat. Este de dorit 
ca acest raport să fie mare, deoarece este necesar mai puţin paralelism 
pentru atingerea unei performanţe dorite. Totuși, sînt necesare tehnologii 
mai avansate şi metode de răcire corespunzătoare pentru a creşte =, şi, 
astfel, costurile crese rapid. În tabelul 1.2 se prezintă =, pentru o gamă 
de calculatoare, în ordinea descrescătoare a valorilor. De asemenea, per- 
formanța specifică este parametrul care determină performanţa unui cal- 
culator pentru vectori mici (vezi $1.3.5). De aici, performanţele pentru 
această situaţie nu se schimbă de-a lungul diagonalelor, și crese numai 
la, traversarea lor ortogonală, spre extremitatea superioară stinga. Pro- 
gresele tehnologice, în particular reducerea perioadei ceasului, duc la 
creşterea lui re fără a modifica n, și produc deplasări verticale în plan. 
Acest proces este evident în evoluţia de la CYBER 205 (20 ns) la CDC 
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NASF (10 ns). O reducere a timpului de iniţializare produce o reducere a 
lui n? şi o deplasare spre stînga. Aceasta contribuie de asemenea la modi- 
ficarea proiectului CDO NASF plecînd de la CYBER 205. 


1h 
Triade 
urrough 
7 JEDE NASF tons 
103 w s 
4 jrrd e? indintezar 
| PARRE IE 
pl Triade SS pipt a 
| CRAPA 64 5 642 DAR 
E dau ; 
vectorial la, da q AS 
1 ge A EA m 
A - pipe „32 
pate E) DN 
spl Í LLAC N pia a 
A i S AS 
3 EA S ipe e ) 
E | appli- ; 
£10 A is 6k 1250s f-pipe | 
ae 
AL 
| 
ok 
| Modul scalar 
oo w HF a m 
Pila 


Fig. 1.15. Reprezentarea în planul (n,/z, roo;) a speciruiui de calculatoare, 

iniile diagonale la aproximativ 45 corespund la dezvoltarea prin multi- 

„ Operaţiile sint in virgulă mobilă. Apostroful marchează numărul 
de biţi folosit la reprezentarea unui număr. 


Gama de calculatoare pe care o prezentăm variază de la ICL DAP 
(n, ridicat) cu un număr mare de unităţi aritmetice lente identice, la cal- 
bilatoare cu cîteva unităţi pipeline aritmetice foarte performante cum 
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ste de exemplu CRAY-1 (n, scăzut). Astfel, 128x 128 DAP şi CRAY-1 
pot atinge aceeași performanţă maximă, dar lungimea performanţei medii 
a acestor maşini diferă, cu două ordine de mărime şi mai ales au caracte- 
zistici de programare diferite — CRAY-1 are aproape caracteristicile unei 
mașini seriale (n, scăzut), iar DAP cele ale unei maşini infinit paralele 


Tabelul 1.2 Periormanţa speciiică- mg pentru o Serie de arhitec- 
turi de calculatoare paralele. Se specifică valorile maxime 


Performanţa 
Calculator i specifică maximă 
To=roo/n/ (M/s) 
C DC 7600, 
CRAY- 10 
BSP, Burroughs 
NASF ` 7 
CYBER 205, 
CDC NASF 1—4 
TIASC 0,4 
STAS 100 0,2 
ICL DAP 0,008—0,04 
Multi-microproce- 
soare (anul 1980) 
de ex. AMD 
" AM 9511 0,008—0,02 


(n, ridicat). Cele două mașini sint separate astfel de un spaţiu mare în 
figura prezentată. Axa orizontală acoperă gama întreagă a arhitecturilor 
de la cele seriale, la cele foarte paralele, la dreapta. Se menţionează că un 
calculator rezolvă eficient numai acele probleme ce sint caracterizate de 
o lungime a vectorului mai mare decît n, propriu. Astfel, cu cît va fi 
mai mare valoarea lui n cu atit va fi mai limitat numărul problemelor 
rezolvate eficient. În acest sens, axa n, poate fi interpretată ca acoperind 
gama calculatoarelor de la cele cu utilizarea cea mai generală, la stînga, 
ia, cele mai specializate, la dreapta. 


1.3.5. Performanţa matricială (SIMD) 


Pînă acum am considerat performanța maximă r în cazul ideal al 
vectorilor de lungime infinită. Formula generală (1.42) poate fi folosită 
pentru a introduce alți parametri care definesc performanţele calcula- 
toarelor pentru vectori cu lungime finită. Acestea sînt : 

(a) performanța medie vectorială 


r = njt = To/(l + 5-1) = Topipe(s) (1.9a) 
7 Sau r = mma/(1 + x) 


unde x = (n/n); şi pipe(x) = (1 + x)! și 
(b) eficiența vectorială 


Y = Ijro = (1 + x7) = pipe(x) E (1.9) 
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În fig. 1.16 se reprezintă, relaţia dintre eficienţa vectorială și lungimea: 
vectorului. Se observă că n = 0.5 pentru n = n,p şi că eficienţa creşte 
asimptotic spre 1 cu creşterea lungimii vectorului spre infinit. Este impor- 
tant de remarcat că apropierea de asimptotă se tace lent, de exemplu, 
pentru o lungime a vectorului de n = 4n,p atinge 80%, din performanţa, 
maximă, iar pentru n = 9n,p se atinge 90%. Panta iniţială a curbei eficien- 
tei care determină eficiența, pentru vectori scurți ,se reprezintă cu linie 
întreruptă. Aceasta ar uni punctul (n = niz, n = L)cu originea. Expresia 
funcţională y = (1 + x-1)-1 intervine frecvent în analizele de performanţă 
pentru a descrie modul de apropiere de asimptotă (vezi $1.3.6). Datorită 
utilizării ei, în contextul descrierii performanţei unei unităţi pipeline, o 
denumim functia pipeline, pipe(x). Când intervine, performanţa poate îi 
definită cu 2 parametri, valoarea asimptotică (aici ra) și parametrul per- 
tormanței medii (aici n, dar în altă parte f,/2($1.3.6) sau S1/2(§1.3.6). Pen- 
tru masivele de procesoare curba, eficienţei este discontinuă, reprezentată, 
cu o linie continuă în fig. 1.17. Oricum, linia întreruptă realizează o Aproxi- 
mare bună cu n,p= Na pentru acest tip de calculator. 


Să analizăm performanţele unui calculator pentru vectori mari și mici, 
în comparaţie cu lungimea performanţei medii. Să considerăm următoarele 
două situaţii limită : 

(i) Cazul vectorului lung (NNi şi X > œ). 
Avem din ecuațiile (1.4a) și (1.9a) 


t = njro I = ro - (1.96) 


Astfel, timpul de execuţie este proporțional cu lungimea vectorului, iar 
performanţa este constantă. Ecuația (1.9c) este ecuaţia de timp pentru 
calculatoarele seriale, unde timpul se obţine împărțind timpul total pentru 
efectuarea operaţiilor aritmetice la viteza de calcul. Astfel, în acest caz, 
orice calculator se comportă ca unul serial chiar dacă posedă un paralelism 
substanțial și nı este mare. 


2 
(ii) Cazul vectorlului scurt (N <D; şi xX > Ø) 
folosind relaţia (1.4b) şi a doua ecuaţie (1.9a), 


Astfel, timpul de execuţie este constant, iar performanţa este proporţio- 
nală cu lungimea vectorului. Aceasta este comportarea unui masiv infinit 
de elemente procesoare, deoarece există, în orice situaţie, suficiente proce- 
soare pentru a fi asignate elementelor vectorului. Întotdeauna calculul 
poate fi încheiat în cursul intervalului de timp necesar execuţiei unei ope- 
raţii paralele a masivului, independent de lungimea vectorului. Acum 
toate calculatoarele apar ca masive paralele infinite, chiar dacă n, poate 
fi destul de mic. 

Deci, To caracterizează performanța unui calculator, pentru vectori 
lungi, în timp ce z, caracterizează performanța pentru vectori scurţi, 
de unde indicele 0. 

Multe calculatoare paralele posedă o unitate scalară cu n, = 0 şi 
au o viteză de execuţie maximă r ca și un masiv de prelucrare a vectorilor 
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sau un pipeline cu n; >0, caracterizat de o viteză de prelucrare maximă 
To. Dimensiunea vectorului limită, n, este dimensiunea vectorului de la 
care procesorul vectorial execută operaţiile vectoriale mai rapid decit cel 
scalar. Folosind formula generală (1.4a) se obține 


m, = np /(Ro — 1) (1.10) 


Asimptota 


fa vectorială 
o a 
Ẹ a 


Eficien 


S 
N 


ai 


ES 8 A 8 9 0 
renny 


Fig. 1.16. Eficiența vectorială m ca funcţie de lungimea vec- 

torului n. Rata actuală de prelucrare este rata maximă x 

elicientă. Această curbă,y=(14+x-1)-î4 estedenumită func- 
ţia pipeline, pipe(x). 
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x= Vp 


Fig. 1.17. Eficiența vectorială a unui proces de calcul pe un 
masiv de procesoare (linia continuă) în comparație cu repre- 
zentarea ei aproximativă pentr-un calculator generic (linia 

întreruptă) 


unde Ro = (Tev ras) este raportul între vitezele maxime vectorială gi sca- 


ară, amîndouă măsurate în elemente pe secundă. Relaţia (1.10) este re- 
prezentată în fig. (1.18). În general este de dorit să avem un n, mic, astfel 
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vor fi putine probleme pentru care procesorul vectorial va fi folosit. 
Ecuația, (1.10) arată că n, mic este echivalent cu un raport mare între vite- 

zele vectorială și scalară. n, , ca și alți parametri, este folosit pentru selecția 

calculatoarelor ilustrată în tab. 1.3. i 


i Ie ARIAN a 
Ro ă 


Fig. 1.18, Influenţa raportului Roo asupra lui np. 


“Tabelul 1.3. Parametrii caracteristici pentru anumite calculatoare porulele 


| 
* Too 

Calciulator M/s (Mnlop/s Ro | To 
64 CRAY-1 10—20 80 13 1,5—3 
48” BSP 25—150 50 20 1—8 
2-pipe 64'CDC CYBER 205 100 100 10 11 
i-pipe 64° TIASC 30 12 4 ? 
64'C DC STAS 100 H 150 25 12 12 
32° (64x64) ICL DAP | 2048 16 400 5 


* Prim notează biți 


Deoarece raportul între vitezele vectorială şi scalară este de obicei 
substanțial (de ordinul lui 10) performanța totală a unui program depinde 
de fracția v a operațiilor aritmetice între perechi de numere (pe care le 
vom numi operații elementare) executate de instrucţiunile vectoriale în 
comparaţie cu cele executate de instrucţiunile scalare. Ne vom referi la 
acest raport ca la fracția operaţiilor vectorizate. Atunci timpul mediu 
pentru o operaţie elementară este : 


tvt, 4 (U = rts (aaa) 


unde t, și tẹ sînt timpii medii necesari pentru o operație elementară execu- 
tată fie cu o instrucțiune vectorială, fie cu una scalară. Viteza de execuție 
este r = t-1 și atinge un maxim r, pentru vectorizarea completă (v = 1, 
t = t, ), iar fracția cîștigului masim obținut cu o fractie v din operaţiile 
vectorizate este : 


g =rh = (R + v(1 — R)j3 (4.11b) 


SR 


unde R = r,/rs = ts/tv = Ron este raportul curent între viteza vecto- 
rială şi scalară pentru problema analizată, depinzind în mod implicit prin 
"de lungimea vectorului. Fig. 1.19 prezintă g ca o funcţie de v pentru R 
Juînd valori între 2 şi 1000. Este clar că pentru R mare aritmetica calcula- 
torului trebuie vectorizată în proporţie mare pentru a atinge performanța 
dorită. Obţinerea unor nivele de vectorizare mari nu este așa dificilă cum 
apare, deoarece introducerea unei instrucțiuni vectoriale de lungime n 
vectorizează n operații elementare, unde n poate avea valori mari. 
Ca o măsură a cantităţii de vectorizare necesară, definim vy, ca fracţia de 
aritmetică ce trebuie vectorizată pentru a atinge jumătate din câştigul 
maxim realizabil. Din ecuaţia (1.11) obţinem 


v = (R — 2/01) (1.12a) 
care pentru valori mari ale lui R devine 
van = 1 — R- pipe (R) (1.12b) 
Această relație este desenată în fig. 1.20. 


În cazul limită al unei unități vectoriale infinit de rapide (R —co), 
găsim din ecuaţia (1.11b): 
r = To /(l — v) (1.126) 


Dacă unitatea vectorială este mult mai Tapidă ca cea scalară, viteza de 
execuţie a calculelor vectoriale este determinată numai de viteza unităţii 


«i scalare, Tos Şi de către fracţia de operații scalare din totalul de operații 


e 


'i5.1.19. Influenţa îracţiei de arit Fig. 1.20. Fracţia de aritmetică ce trebuie vecto- 
E ineton i TE rizată pentru a obține jumătate din cîștigul maxim 
ciștigului maxim care se realizează Vaz» ca funcţie de R. 
g. R este raportul intre vitezele 
vectorială și scalară, Va/2 este Va- 
arca lui v pentru un ciştig de 

jumătate. 


aritmetice (1—v). Formulat alifel, dacă o broască țestoasă şi un iepure 
sint într-o cursă, viteza medic a perechii este determinată cu precădere de 
viteza broaştei şi de distanţa, de parcurs. Viteza iepurelui nu este impor- 


tantă deoarece timpul lvi este, oricum, neglijabil. Situaţia nu se va îm- 
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bunătăţi semnificativ dacă iepurele va fi inlocuit de un ghepard. Acest: 
efect este ilustrat de apropierea lentă alui v,/ de valoarea asimptotică în 
fig. 1.20, cu creşterea, vitezei unităţii vectoriale. Pe scurt, calculatoarele: 
vectoriale cu unităţi scalare lente sînt condamnate, cum s-a văzut cu CDC 
STAR 100 (vezi $1.1.3). Efectul descris mai sus și ecuaţiile (1.11) şi (1.12) 
sînt cunoscute în ansamblu ca legea lui Amdahl. IBM a tras concluzia, folo- 
sită la calculatoarele sale vectoriale, că nu este eficient să se construiască, 
unități vectoriale de mai mult de 4—5 ori mai rapide decit unitățile sca- 
lare, deși în tab. 1.2 s-a văzut că multe calculatoare vectoriale cu succes: 
comercial au Roo semnificativ mai mare. 

Legea lui Amdahl intervine cînd timpul total al unei activități este 
suma timpului unui proces rapid și timpului unui proces lent. Deci, această: 
lege se aplică cînd un job este distribuit pentru execuţie unui multiproce- 
sor MIMD. Această problemă este deseori denumită organizarea multi- 
tasking a unui job. Dacă numărul procesoarelor este mare, să spunem N, 
atunci viteza de execuţie cu N procesoare este de N ori mai mare decit a. 
acelor părţi ale job-ului executat secvențial de un singur procesor. Astfel, 
pentru N mare, viteza medie de execuţie a unui job este determinată în 
primul rind de viteza unui singur procesor (de obicei foarte lent dacă N 
este mare) si de fracţia din job care nu poate fi paralelizată și deci trebuie 
executată secvențial, din nou ecuaţia (1.12c) (Larson 1981, 1985). 


1.3.6, Performanţa sistemelor MIMD 


Este important să înţelegem că adoptarea soluției programării mak 
multor fluxuri de instrucțiuni se face cu un anumit cost. Programarea: 
MIMD creează overhead suplimentar cu efectele asociate și uneori se pot 
chiar pierde avantajele ciștigate prin hardware. Dacă soluția MIMD a 
unei probleme este sau nu avantajoasă depinde în mod efident de mărimea, 
acestor costuri. 

Dacă, într-un calculator MIMD, p microprocesoare execută o secvenţă 
identică de instrucțiuni (același parcurs prin acelaşi program), atunci p 
instrucţiuni identice sînt extrase din memorie și furnizate la p unităţi 
identice de prelucrare a instrucţiunilor (IPU), cînd de fapt sint necesare 
o singură extragere de instrucţiuni și o singură IPU. În acest caz se risi- 
pesc resurse hardware şi se realizează, un trafic cu memoria, care nu este 
necesar. Pentru un astiel de job este mult mai indicat un calculator SIMD, 
deoarece acesta ar extrage și prelucra într-adevăr o singură instrucţiune 
în unitatea centrală master, în timp ce cele p elemente procesoare ar 
executa operaţii identice sub control central. Economiile la extragerea 
instrucțiunilor și prelucrarea lor sînt cunoscute ca economii SIMD şi 
reprezintă motivul principal pentru care au fost inventate aceste calcula- 
toare. Suprafaţa de siliciu economisită poate fi folosită pentru creşterea 
paralelismului unităţii aritmetice și deci, pentru creşterea vitezei, în timp 
ce traficul redus la memorie ar reduce numărul conflictelor de acces la. 
memorie și întirzierile asociate. 

Este foarte probabil că sistemele MIMD vor executa programe 
identice cu toate microprocesoarele lor, căci cine ar scrie, de exemplu, o 
mie de subrutine diferite pentru un sistem MIMD cu 1000 procesoare 
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Desigur, punctul crucial este că nu se execută simultan instrucţiuni iden- 
tice, chiar dacă programele sint aceleaşi, datorită ramurilor de execuţie 
dependente de date ce vor determina parcursuri diferite prin programul 
executat de diferitele microprocesoare. Un prim exemplu este simularea 
Monte Carlo unde, prin alegerea aleatoare a datelor, se realizează în mod 
deliberat parcursuri diferite la fiecare execuţie a aceluiași program. Astfel 
de probleme impun în mod clar rezolvarea pe calculatoare MIMD, nefiind 
potrivite pentru sistemele SIMD. 

Există, totuşi, multe situaţii cînd împărţirea naturală a unei pro- 
bleme pe un calculator MIMD conduce la execuţia unei secvenţe identice 
de instrucţiuni de către toate microprocesoarele. Să considerăm, de exem- 
plu, rezolvarea a p sisteme independente de ecuaţii tridiagonale, fiecare 
sistem fiind alocat; unui procesor, sau calculul a p transformate Fourier 
independente. Ambele probleme intervin în faze diferite ale rezolvării 
ecuațiilor diferenţiale parţiale cu transformate (vezi $5.6.2) si nu conțin 
ramuri dependente de date. De aceea, sînt ideal de executat pe calcula- 
toare SIMD, neavînd nevoie de un sistem MIMD. 

Cele trei probleme (sau overheadul) asociate calculatoarelor MIND 
aint : 

(1) planificarea activităţiilor între procesoarele disponibile (sau flu- 
xuri de instrucţiuni) într-un astfel de mod încît să se reducă, preferabil 
ia 0, timpul cit procesoarele sint inactive, așteptind alte procesoare ; 


(2) sincronizarea procesoarelor astfel încît operațiile aritmetice să se 
desfăşoare în secvență corectă ; 


(3) comunicarea datelor intre procesoare astfel ca operațiile aritmetice 
să se realizeze cu datele corecte. 

Problema comunicaţiilor între memorie şi unitățile aritmetice este 
prezentă la toate calculatoarele şi venerează diferențele între performan- 
tele maxime ale unităților pipeline anunțate de producători şi performan- 
tele medii realizate pentru probleme reale. Programarea şi sincronizarea 
sint probleme noi ridicate de calculatoarele MIMD. Fenomenele enunțate 
sint cuantificate cu 3 parametri, E, pentru planificare, S}; pentru sin- 
cronizare şi fi; pentru comunicaţie (Hockney 1987b, c, d). 


(i) Parametrul planificării: Ep 

Planificarea este problema cea mai studiată referitor la calculatoarele 
MIMD ; într-adevăr, pînă de curînd, era singura problemă care a primit 
multă atenție. Cele mai multe lucrări privitoare la algoritmii paraleli tra- 
tează problema planificării activităţilor diferiților algoritmi pe un sistem 
cu p procesoare, cu presupunerea că timpul necesar sincronizării şi co- 
municaţiilor poate fi ignorat. Pentru moment vom face aceeaşi presupunere, 
deoarece vrem să tratăm ultimele două efecte separat. Urmind cercetările 
grupului condus de D. Kuck, de la Universitatea Illinois (Kuck 1978, p. 
33), introducem eficiența planificării, E, activităţilor a p procesoare, 
aşa cum urmează. Dacă T, este timpul necesar unui singur procesor pentru 
execuţia tuturor activităţilor, iar Tẹ, timpul pentru aceleaşi activităţi 
cind sint executate de p procesoare identice, avem : 


E, = T,/(pT,) < 1 (1.13) 
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Se obţine o planificare perfectă cînd este posibil să se aloce (1/p) dir 
activităţi fiecărui procesor, cînd T, = T,/p şi E, = 1. Dacă activităţile 
nu pot fi repartizate între cele p procesoare, atunci unele vor încheia: 
operaţiile înaintea altora, devenind inactive, şi T, > T,/p iar E, < 1. Din 
această cauză planificarea mai este uneori referită ca echilibrarea încăr- 
cărti (load balancing). 

Dacă ro este performanța maximă a unui sistem cu p procesoare, 
atunci fiecare procesor are o performanță maximă de r/p. De asemenea, 
dacă procesoarele sint calculatoare seriale (n,/ = 0), de exemple micro- 
procesoare, iar dacă activităţile constau în s operaţii aritmetice în virgulă 
mobilă, atunci intervalul de timp necesar unui procesor va fi: 


T, = S/(fe/p) = (SP)/re (1.14) 
iar pentru p procesoare ce lucrează în paralel va fi: 


T, = T (pE) = 3/(roEp) (1.15) 


(îi) Sincronizarea sau parametrul mărimii granularitătii (grain size) : 

Introducem în formula: (1.15) overhead-ul de sincronizare prin defini- 
rea conceptului de segment de lucru (work segment) ca unitate de bază 
din care sînt construite programele MIMD . Un segment de lucru este un 
set de instrucţiuni aflate între două puncte de sincronizare, programat 
sub forma a p task-uri complet independente, cîte unul pentru fiecare 
procesor. ,„Independent” înseamnă că nu există comunicaţie (transfer de 
date) între task-urile segmentului de lucru. Întinderea segmentului de 
lucru este determinată de faptul că se află între două puncte de sineroni- 
zare. Cu alte cuvinte, orice activitate inițiată înaintea segmentului de 
lucru trebuie să. se încheie înaintea lansării acestuia în execuţie, care, la 
rîndul lui, trebuie executat înainte de a se continua execuţia programului, 
În programele ştiinţifice, dimensiunea activităților este de obicei egală cu 
numărul operaţiilor în virgulă mobilă din segment. 

Dacă dimersiunea activităţilor ce urmează să fie executate în paralel 
în mod indepenrient de către p procesoare este mare, spunem că granu- 
laritatea paralelismului este mare, sau că programul este definit de parale- 
lism cu granularitate mare. Din contra, dacă dimensiunea activităţilor: 
împărţite este mică, spunem că paralelismul are granularitate mică. Dife- 
renta principală între programările SIMD şi MIMD constă în tipul gra- 
nularităţii paralelismului programului. La calculatoarele SIMD, sineroni- 
zarea se realizează prin hardware după fiecare operaţie vectorială, iar 
granularitatea paralelismului este egală cu lungimea vectorului, de obicei 
mic. La calculatoarele MIMD, dimensiunea granularității este de obicei 
mult mai mare şi poate implica o întreagă fază a unui algoritm (de exem- 
plu, transformata Fourier pentru o structură tridimensională). Putem cuan- 
tifica ideea de granularitate prin egalarea cu s, cantitatea de lucru într-un 
segment, aşa cum a fost definit în paragraful anterior. Formulată astfel, 
dimensiunea granularităţii programelor SIMD constă în numărul instruc- 
ţiunilor buclelor DO cele mai interioare, care sînt inlocuite cu instrucțiuni 
vectoriale. Programele MIMD sint împărțite de obicei la nivelul buelelor 
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DO cele mai exterioare, iar dimensiunea granularităţii va fi egală cu seg- 
mente mari din program. 

Realizarea sineronizării impune un anumit interval de iip: to, ce 
depinde de mecanismele hardware, sistemul de operare şi limbajul de 
programare. Parametrul sincronizării, Sp, se defineşte prin cantitatea de 
operaţii aritmetice care s-ar fi putut executa (la viteza maximă de ra) în 
timpul necesar sincronizării (Hockney 1985c). Astfel, s,/2— Tot este, cu 
alte cuvinte, cantitatea de operaţii aritmetice pierdute datorită necesități- 
lor de sincronizare. Deci, acest parametru măsoară importanţa overhead- 
ului de sincronizarea pentru utilizator, deoarece se măsoară în unităţi de 
operaţii aritmetice pierdute, în cursul execuţiei programului utilizatorului. 
Dacă adunăm timpul de sincronizare la timpul calculat anterior, Tp, se 
obţine timpul necesar execuției unui segment de lucru 


te = teto + T, = 1a [(8/Ep) + Sur] (1.16) 


Pain o problemă care poate fi planificată perfect (E, = 1), ecuația 
(1.16) are pentru calculul MIMD aceeaşi expresie ca şi ecuația (1.4a) pen- 
tru o instrucțiune vectorială SIMD, cu cantitatea de operații aritmetice s, 
analoagă lungimii vectorului n, iar £1; este analog cu n,pp:Sap este, de ase- 
menea, cantitatea de operații aritmetice necesare Într-un segment de lucru 
pentru ca viteza de calcul medie să fie jumătate din cea maximă, cu: alte 
cuvinte 1/2. În acest caz, cînd s = Sp, se consumă pentru operaţii arit- 
metice utile numai jumătate din timp, cealaltă jumătate fiind consumată, 
pentru sincronizare. Deci, este folosit numai 50% din timp.De aceea, para- 
metrul S „poate fi denumit dimensiunea granularității pentru jumătate din 
performanţă (halt performance grain size). Performanţa medie pentru alte 
valori ale cantităţii de operaţii aritmetice s se obţine cu formula: 

S rop 


pt 


tw 1 (S12Ep/S) 


= ToEppipe(3/31/2Ep) (1.17) 


Această expresie este identică cu ecuaţia (1.9a), reprezentată în fig. 1.16 
pentru performanța vectorială medie ca funcţie de lungimea vectorului, 
cu ræ înlocuit de r Ep, iar n, înlocuit de S1/2Ep. 

Este important să cunoaştem valoarea lui s, pentru un calculator 
MIMD, deoarece este o măsură, ce poate fi folosită pentru judecarea di- 
mensiunii granularităţii paralelismului programului în mod efectiv. Cu 
alte cuvinte, spune programatorului cît de multe operaţii aritmetice tre- 
buie să fie într-un segment de lucru înainte de a împărţi activităţile între 
mai multe procesoare. Dacă considerăm că o utilizare sub 50% este inaccep- 
tabilă, atunci prin definiție dimensiunea granularităţii (sau segmentului), 
s, trebuie să depăşească s,/. Dacă, pe de altă parte, dorim atingerea lui 
Sp (break even grain size), valoare de la care este mai rapidă execuţia 
job-ului cu p procesoare şi acceptarea overhead-ului de sincronizare, decit 
fără sincronizare şi utilizarea unui singur procesor, se obține prin egalarea 
ecuațiilor (1.14) și (1.16): 

= Spl(p — E») (1.18) 
Pentru o planificare perfectă (E, = 1), acest rezultat este perfect, analog 
lungimii vectorului n calculat cu ecuaţia (1.10) şi reprezentat în fig. 1.18, 
cu numărul procesoarelor p înlocuind Re.. 
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Ca şi n;a, parametrul de sincronizare, s,/, trebuie să fie considerat ca o 
cantitate experimentală ce trebuie măsurată pe orice sistem MIMD, iar 
astfel de măsurători s-au efectuat pentru CRAY X—MP cu 2 CPU, IBM 
[CAP gi sînt prezentate în capitolul 2 (Hockney 19853, 1987d), iar pentru 
Denelcor HEP în capitolul 3 (Hockney și Snelling 1984, Hockney 19856). 
Programele utilizate diieră ca detalii, datorită necesităţilor de sincronizare 
şi multi-tasking ale fiecărui sistem. Principiul, însă, este următorul: 
ca şi la măsurarea lui n, în programul (1.5), se alege ca task o înmulţire 
vectorială element cu element, ce urmează a fi împărţită în fluxuri de 
instrucțiuni, Cînd lungimea vectorului este un multiplu de numărul fluxuri- 
lor de instrucţiuni (sau procesoare), execuţia poate fi planificată perfect, 
şi în acest caz măsurăm timpul t ca o funcție de cantitatea de operaţii 
aritmetice s: 


t = Ta(5 + Sa) (1.19a) 


iar performanţa medie este dată de funcţia pipeline 
T = ro Pipe (8/8,/2) (1.19b) 


Aceeaşi subruţină este furnizată fiecărui flux de instrucțiuni, constind din 
bucla DO 10 a programului (1.5) cu parametrii specificind valoarea de start 
şi sfirșit pentru I. Acestea, sînt stabilite de programul de control master 
pentru fiecare flux de instrucţiuni, pentru a se asigura că fiecare flux reali- 
zează o secţiune diferită din operaţiile de înmulţire vectoriale inițiale. 

Se pot distinge cazuri diferite pentru măsurarea sincronizării cores- 
punzătoare diferitelor primitive de sincronizare asigurate, iar într-un 
sistem cu reţea, funcţie de faptul că datele necesare sint în procesor sau 
trebuie transferate prin reţea. În ultimul caz, în măsurători se include şi 
costul comunicării. Pentru a se studia numai sincronizarea, ar fi necesar 
să se presupună că datele se află în memoria locală. Un studiu pentru valo- 
rile limită ale lui ră și Sı; furnizează un număr de valori între care s-ar 
putea situa valorile aplicabile problemelor actuale. La un sistem strins 
conectat, unde se execută comunicaţii rapide între procesoare, domeniul 
cuprins între cazurile cel mai bun și cel mai rău ar trebui să fie destul de 
mic ; dar într-un sistem slab conectat, unde comunicațiile între procesoare 
sînt lente, domeniul de valori poate fi mare. Variația lui s,/ cu întirzierile 


datorate comunicaţiilor se tratează cu testul de eficienţă în domeniul (ra, 
S12 fie) descris în $1.3.6, partea (iv). 


(iii) Parametrul comunicației : fura i 

În cursul tuturor testelor folosite mai sus pentru măsurarea lui n, 2 şi 
Sı am considerat ca problemă standard înmulţirea vectorială element cu 
element şi am distins cazuri diferite pentru valori (r-o, 13/2 5/2), depinzinăd 
de faptul că vectorii erau memoraji în registre locale sau memoria operativă. 
Dacă viteza de calcul a unei unităţi pipeline aritmetice este mai mare decit 
viteza de transfer a datelor cu memoria operativă, va interveni o stran- 
gulare a accesului la memorie (sau a comunicaţiei), iar viteza de calcul va 
creşte odată cu creşterea numărului de operaţii aritmetice per acces la 
memorie, Această situaţie pe care o vom desemna: ca bandă a accesului 
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la memorie este caracteristică superealculatoarelor, deoarece ele posedă 
unităţi aritmetice pipeline de mare performanţă. În cazul testului nostru, 
la un acces la memorie se execută numai 1/3 dintr-o operaţie în virgulă, 
mobilă, cazul cel mai defavorabil. Multe calcule permit o valoare mult mai 
mare, ca în analizele ce urmează. 

Accesele la memorie pot fi modelate aproximativ (Hockney 19854, 
Curington şi Hockney 1986) prin presupunerea că fiecare operaţie vecto- 
rială la memorie respectă relaţia : 


t = m + npa) 3 (1.20a) 


iar operațiile vectoriale executate în unitatea aritmetică pipeline respectă 
relația : 


t = (n + nt) (1.20b) 


Introducind noua variabilă importantă f (intensitatea computatională), 
definită, ca numărul operaţiilor aritmetice în virgulă mobilă per referinţă 
la memorie și exprimind timpul mediu pentru o operaţie aritmetică vec- 
torială ca: 


t= (n + Dup) (1.21a) 


atunci, în cazul cînd operaţiile de transfer cu memorie și cele aritmetice 
nu se pot suprapune, găsim că: 


a pe 
To= nm i 
1 — x 


= ĉe pipe(t/f,/2) (1.21b) 


ni + NiX 


niz = 
l1-=-+x 


(1.216) 


unde fo = 15%, fis = 1/1 ȘI X = fjfi 


Astfel, raportul x determină gradul în care performanţa medie a 
operaţiilor aritmetice şi de acces combinate tind asimptotic spre perfor- 
manţa unităţii pipeline singure. Performanţa masimă îs definită la limita, 
Í = oo, este egală în acest model cu rå. Ecuația (1.21b) arată că modul 
cum este atinsă această asimptotă este identic cu cel în care performanța, 
medie a unei singure unităţi pipeline, r, tinde spre asimptota ei, ro, ca o 
funcţie de lungimea vectorului n, ca funcţia pipeline pipe(x) (vezi ecuaţia 
(1.9a) şi figura 1.16). Deci, prin analogie cu n, introducem un nou para- 
metru f, (intensitatea performanţei jumătate), care este valoarea lui fij 
necesară pentru a atinge jumătate din performanţa maximă. Parametrul 
fı; este o proprietate numai a hard-ului calculatorului și reprezintă o mă- 
sură faţă de care f (care este o funcție numai de algoritm şi aplicaţie) tre- 
buie comparat, pentru a estima performanţa medie, ræ. Dacă f = fiy 
performanţa medie este jumătate din cea maximă posibilă (ca şi pentru 
D+/2) ; dar dacă dorim atingerea a 90%, din performanţa maximă (0, 93) 
avem nevoie ca î=9f,p. Ecuația (1.21c) arată cum variază n. pentru ope- 
rații de transfer şi aritmetice combinate de la cel al memoriei pentru f 
mic, pînă la cel al unităţii pipeline pentru f mare. Fig. 1.21(2) şi (b) pre- 
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zintă măsurări ale lui f; pentru FPS 164, conectat printr-un canal la IBM 
4381 ca gazdă (Hockney 1987c). Măsurători similare au fost publicate pen- 
tru FPS 5000 (Curington și Hockney 1986). 

Valoarea lui f, este determinată prin trasarea, lui f/rx versus f, care 
ar trebui să fie aproximativ liniar. Inversa pantei celei mai bune linii drepte 


este fa, iar intersecţia negativă cu axa f este fi, deoarece prin rearanjarea 
ecuației (1.21b) se obține : 


Ír = i3 (È -- faa) (1.214) 

Dacă, pe de altă parte, transferurile cu memorie pot avea loc în acelaşi 
timp cu execuţia operațiilor aritmetice în pipeline, cele două tipuri de 
operaţii se pot suprapune. În acest caz, rezultă o expresie funcţională, dife- 
/ rită, pe care o definim ca funcția 


„ O Hăsurat 
— Forinula 


8 10 
Operații în virgulă mobilă/raferință 
a la memorie, f 
ib) pă E 
— “ornuta 
| i j 
3000; 
A 


1000F ipa 
| niz OO RA 
L E ai, 
piine a Sere 
VAM ARE E V Ca Al lie a.) 
Operații în virgulă mobilă/referință 


la memorie, 


knee, Aceasta este funcţia rampă 
trunchiată : 


knee (x) = 5 dacă x <1 
1, dacă x >1 


(1.228) 


Performanţa operaţiilor aritmetice 
şi de transfer suprapuse este 
atunci : 


Te = ĉo knee_(0,5f/f,p)  (1.22b) 
unde to=fh; iar î,1=0,5r%/rm 
(1.226) 


Astfel, prin suprapunerea opera- 
ţiilor de transfer, valoarea lui f,/e 
este înjumătățită şi se reduce, în 
mod corespunzător, numărul ope- 
vaţiilor aritmetice per referință la 
memorie necesare pentru a atinge 
un anumit procent din performan- 
ţa maximă. 

În analiza de mai sus, dacă 
memoria şi unitatea aritmetică pi- 
peline se află în acelaşi CPU, rea- 
lizăm o analiză a unui calculator 
SISD sau SIMD cu limitarea trafi- 
cului la memorie. Dacă, pe de altă 
parte, memoria şi unitatea pipeline 


Tig. 1.21. a) Variația performanţei asimptotice, 
Teo, ca o funcţie de numărul operaţiilor in virgulă 
mobilă per referință la memorie f, pentru un 
FPS 164 conectat via un canal la IBM 4351. b) 
Lungimea performanţei jumătate medii, naja, Ca 
o funcţie de numărul operaţiilor în virgulă mo- 
bilă per referință la memorie, f, pentru un FPS 
164 conectat printr-un canal la IBM 4381 


se află în CPU diferite, realizăm o 
analiză a ovezheadului de comu- 
nicație la un calculator MIMD. În 
ambele cazuri parametrulhardware 
cheie este f, care, în acest mo- 
del de calcul, este proporțional, cu 
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conținute de toate variabilele de intrare, ieșire şi masive ale subrutinei, 
pentru toate instanţierile ei. În cazul acestui test, dacă n este lungimea, 
vectoru- lui m = 3n (2 vectori de intrare, 1 vector de ieşire) și s = 3nf 
deoarece operaţiile aritmetice se repetă de 3f ori. 

Prin rearanjări se arată că : 


Too = ĉopipe (f/f); Sia = Sapipe (f/f) (1.25a) 
Și r = reopipe (S/81/2) = PoPipe (f/f12) pipe(s/s1/2) (1.25b) 
sau l 
r = pyan ARRN ae (1.256) 
1 +(Êi/f)+ (12/5) 
unde ĉo = t3! $z = to/ta Și fiz = tifta (1.25d) 


Iată interpretarea ecuației (1.25): Principalii parametri hardware care 
determină comportarea calculatoarelor MIMD sint to, t: şi ta. Acestia 
influențează performanța programului prin rapoartele definite în ecuația 
(1.25d). Performanța maximă este i, inversul timpului consumat de 
operaţiile aritmetice. Valoarea maximă a lui S, 2$;/ este raportul între tim- 
pul de sincronizare şi cel consumat pentru execuţia operaţiilor aritmetice, 
numărul maxim posibil de operaţii aritmetice pierdute datorită sineroni- 
zării. Parametrul de comunicaţie fj» este raportul dintre timpul necesar 
comunicaţiilor si timpul necesar operaţiilor aritmetice, raportul dintre vi- 
teza de calcul și viteza de comunicaţie (banda). Parametrii performanţei 
generale (ræ, $1/2) sînt mai mici decit valorile hardware maxime datorită, 
întirzierilor de comunicație, această variaţie se exprimă în ecuaţia (1.254) 
prin funcția pipeline. 

Avînd calculaţi parametrii generali, performanţa medie actuală este 
furnizată de ecuaţia (1.25)), unde ultima expresie arată că rata maximă 
este micşorată datorită comunicaţiilor (prima funcţie pipeline), şi de 
dimensiunea inadecvată a granulaţiei (a doua funcție pipeline). Trebuie 
reamintit că în ecuaţia (1.25b) s,p este o funcţie de f prin ecuația (1.253). 
Variația reală a vitezei medii cu f şi s se observă mai clar în ecuaţia 
(1.256), unde se folosesc numai parametrii hardware reali. În ecuaţia, (1.25c) 
primul termen de la numitor provine de la timpul de calcul aritmetic, al 
doilea, de la timpul de comunicaţie iar al treilea de la timpul de sineroni- 
zare. 

Fig. 1.22(a) şi (b) prezintă măsurători ale parametrilor de performanță 
gernerală (ro, 8.2) conform ecuației (1.23) pentru testul (tæ, Suz, î/2) aplicat 
sistemului de calcul IBM/CAP (vezi $2.6.9) unde la un calculator gazdă 
IBM 4381 sînt conectate 10 FPS 164 (Hockney 19874). Deoarece fî,„-= 2, 
curbele superioare pentru î£=100 corespund lui fo și $» iar cele inferioare 
prezintă degradarea performanţelor ce intervine cînd î este mic. Curbele 
simbolizate cu 1 şi 2 se obţin folosind ecuaţia (1.25) pentru următorii 
parametri : 


fo = 1,08p Mflop/s 
i = 1,08p (2500 + 4777p) flop (1.26) 
fiz = 2,02 flop/ref. 
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raportul performanței aritmetice la rata transferului. În lucrările lui 
Lint și Agerwala (1981) şi Lee, Abu-Sufah și Kuck (1984) sint prezentate 
alte analize ale degradării performanţelor datorită problemelor ridicate 
de comunicaţii. 


(iv) Testul (fc dup în) 


În cursul analizei de mai sus am considerat overhead-urile de sineroni- 
zare pentru f constant (partea (ii)), ca şi efectele întirzierilor datorate co- 
municajţiilor fără sincronizare (partea, (iii)). În continuare vom considera 
un test mai general care include ambele efecte și, în particular, prezintă 
variaţia lui sı; cu f. 

Vectorul A va fi calculat ca produsul vectorial element cu element 
al vectorilor B și C, prin împărțirea volumelor de calcule cît mai egal 
între cele p procesoare. Iniţial, vectorii B și C se află în memoria sistemu- 
lui principal (oricare ar fi acesta), iar vectorul rezullat A se va asambla 
în aceeaşi memorie. Astfel, fiecăruia din cele p procesoare i se va trimite 
o parte a vectorilor B şi C, va executa o înmulțire parțială ṣi va trimite 
porțiunea din vectorul A rezultat, memoriei principale. Job-ul este încheiat 
numai cînd toate procesoarele au returnat memoriei principale vectorii 
parţiali calculaţi. Cu alte cuvinte, după p operaţii de calcul în program 
trebuie stabilit un punct de sincronizare (prin includerea, de exemplu, a 
unei instrucţiuni barieră”), care va fi inclus în măsurarea timpului de 
execuție. Pentru a varia raportul între operaţiile de calcul şi cele de comu- 
nicajţie, fiecare procesor repetă înmulțirea, vectorilor parţiali B și C de 3t 
ori. Se păstrează definirea anterioară a lui f, deoarece există trei operaţii 
de IJE (input B, C; output A). Cînd f = 1/3, operaţia vectorială se exe- 
cută o dată, aşa cum s-a prezentat în (ii). 

Timpul total de execuţie a testului este: 


ti = Tgi(5 + S) rezultind r = ræ pipe(S/Su/2) (1.23) 


Vom separa contribuţia părţilor de calcul, comunicaţie şi sincronizare şi 
vom considera. situația cind operaţiile aritmetice nu se pot suprapune în 
timp cu cele de comunicaţie. Atunci, 


t = to(p) + t(p)m + ta(p)e (1.243) 
t = t(initial şi sincronizare) + t(comunicații) + (calcul) — (1.24b) 


unde cei trei termeni sînt identificaţi cu iniţializarea, comunicațiile şi, 
respectiv, calculul. Termenii din ecuaţie se explică după cum urmează 
s este numărul total de operaţii în virgulă mobilă (flop) executate de toate 
procesoarele ; m este numărul cuvintelor ce se transferă prin operaţii de 
I/E în cadrul segmentului de lucru (vezi mai jos) ; f este egal cu s/m și dă 
numărul de operaţii în virgulă mobilă pe cuvînt transferat; t,(p) este 
timpul mediu pentru execuţia unei operaţii în virgulă mobilă, tg(p) este 
timpul pentru job-ul nul (s = m = 0); t (p) este timpul mediu pentru o 
operație de T/E. 

Variabila m cuantifică comunicaţia realizată, de un segment de lucru 
cu restul programului. Dacă, așa cum se întimplă de obicei, corpul seg- 
mentului de lucru este scris ca o subrutină, reprezintă numărul cuvintelor 
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Aceşti parametri arată că pentru ca o problemă să poată îi rezolvată 
eficient pentru același sistem, trebuie să aibă f = 8 flop/ref de unde f/f; = 
= 4 şi o performanţă asimptotică de 80% din cea maximă. Pentru 10 
procesoare Sı; ar îi de aproximativ 400 Kilop și pentru o eficiență de 
80%, ar îi necesară o dimensiune a granulaţiei de 45,2 = 1,6 Milop. Aceasta 
este semnificația numerică a aserțiunii că acest sistem este slab conectat 
şi deci indicat numai pentru probleme ce au paralelism cu granularitate 
mare (de ordinul 1 Mflop). Din fericire, multe probleme de fizică satisfac 
acest; criteriu (Fox şi Otto 1984). 


(v) Performanța programului i 

Secţiunile anterioare au tratat numai determinarea timpului de execu- 
ţie pentru un singur. segment de lucru care poate fi distribuit la p proce- 
soare. Cind se consideră un program complet, cu mai multe segmente de 
lucru, trebuie să se observe că unele pot conţine cod ce trebuie executat 
secvențial pe uri singur procesor, pentru a se obţine rezultate corecte. Să, 
împărțim atunci timpul de execuţie al programului secvențial original, Tu, 
în două părți: 


Ti = ter + tpar (1.27) 


unde taer este timpul necesar execuției părții secvențiale din cod, iar tpar cel 
necesar pentru execuția părții paralele. 

Cind programul este paralelizat se obține timpul de execuție paralelă 
cel mai bun: 


T, = tier + tpar/P - (1.28) 


unde numai al doilea termen se reduce prin execuție paralelă. Am presupus, 
desigur, că timpii de sincronizare şi comunicare sînt neglijabili. Dacă 
definim performanța programului R(p) ca inversul timpului de execuție, 
atunci : 


R(p) = Te! = (ter + tpar)! = Roll + (Pi/p)]t (1.29a) 
care poate fi rescrisă 


R(p) = Ropipe(p/puz) „(1.29b) 
unde Reo = tat Şi Pure = tpar/tser (1.29c) 


Astfel, rata asimptotică Ru este inversă timpului necesar execuţiei acelei 
părţi a programului care nu poate fi paralelizată. Această situaţie intervine 
în model cînd numărul procesoarelor p — oo, ceea ce reduce timpul de 
execuție a părţii paralelizate la zero. Observăm că forma funcţională de 
atingere a ratei asimptotice este din nou cea a unei funcţii pipeline pipe 
(x), iar pupp, ca de obicei, este numărul procesoarelor necesare-pentru atinge- 
rea a jumătate din performanţa asimptotică. 

Parametrul cel mai folosit pentru compararea performanţelor algo- 
ritmilor este accelerarea (speed-up), Sp (Kuck 1978), definită cu: 


S, = T/T, = R( PVR = Sell + (P/P) = Sepipe( p/P) (1.30a) 
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unde T, și T, sint timpii de execuţie ai algoritmilor pe un procesor, respec- 
tiv p procesoare. Se obţine: 


So = Ro/R(1) = (1 + Pie) = Ta/tser 


=(fracția din timpul de execuţie alprogramului inițial neparalelizată)-? 
(1.30n) 


"8 
7 &, 
26 e 
Šis yE 
£ k 
Li i 
3 d 
2 P în 
1 E e ue ui ER 
pia ad sedea i gi 
s JCS o BE ALBA 
Numărul de FPS-164,Hs,p 
Of=100  -- Fiti Xf=1/3 -Fit 1 
(b) gr ; 
| E: 
3 
Ea: 
Sal 
z 
e | 
=] 
2 Pa 
LE) 
k i ' Eroi 
| za) yaran REE a 
d CC ERIE DEN si ARII, INI 


& pe Numărul de FPS-164,Hs,p 
o f=100 ---Fit2 xf=13 „Fit? 


Fig. 1.22 (a) şi (b) prezintă măsurători ale parametrilor de 

performanță generală (roo, S}/2) conform ecuaţiei (1.23) pentru 

testil (3, Saya; fag2) aplicat sistemului de calcul IBM ICAP 

(vezi $2.5.9) la care sînt conectate 10 FPS 164 la un calcu- 
lator gazdă IBM 4381 (Hochney 1987 d). 
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Ambele ecuaţii (1.29b) și (1.30) sint expresii ale legii Amdahl. (Amdahl 
1967), în sensul că performanţa sau accelerarea nu o poate depăşi pe cea 
obţinută cînd părţile vectorizate sau paralelizate se execută în timp zero. 
Rata maximă este determinată de timpul de execuţie a operaţiilor nevec- 
torizate sau neparalelizate ale programului. 

Se constată că multe programe paralele respectă. dependenţa funcţio- 
nală a ecuaţiei (1.29b), cel puţin pentru valori mici ale ui p. În practică, 
cu cît p crește, sincronizarea, și alte overhead-uri crese rapid cu p, cu 
rezultatul că există de obicei un maxim al execuţiei programului, urmată 
de o reducere. Această comportare respectă funcţia : 


Rip) = Rofl + (Pue/p)[l + (1/(n — php (1.312) 


În această formulă overhead-ul de sincronizare este reprezentat, de facto- 
rul dintre acolade, iar rapiditatea: cu care crește odată cu p este determi- 
nată de n, indexul de sincronizare. Evident, este de dorit să fie cît mai mic 
posibil. 

Mărimea, overhead-ului de sincronizare este determinată de p, unde 
valori mari înseamnă overhead mic. Valoarea acestor parametri variază 
considerabil pentru diversele sisteme software. Performanța maximă, 
se obține cînd p = p şi are valoarea : 


R = Roll + m/n — DPI (1.31b) 


Ca un exemplu practic de paralelizare am considerat un program de simu- 
lare a mișcării electronilor în semiconductori, denumit FET6, convertit; 
pentru execuţie paralelă pe IDM/CAP la centrul IBM ECSEC din Roma 
(Hackney 1987c). Programul calculează noile poziţii şi viteze a aproxima- 
tiv 10000 electroni, pas cu pas. El este descris în lucrarea Hockney şi East- 
wood (1981), capitolul 10. Fie- -05 

care pas constă din parcurge- 
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Fig. 1.23 arată măsură. exeecntat pe 1 pină la 10 calculatoare FPS 164. Per- 
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torile de performanţă ale pro- 
gramumi FET6, executat pe 
mai multe FPS 164. Timpul 
de execuţie al programului pa- 


formanţa atinge un maxim R pentru P procesoare, 

Valorile măsurate respectă ecuația (1.31a) cu Rœ= 0.5, 

Pi2=5.5, R = 0,25, p= 7 .1 şi n=5. Dacă over- 

head-ul de sincronizare ar putea fi eliminat, performanța 
ar urma curba întreruptă cu asimptota la Roo- 
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ralelizat respectă ecuaţia (1.31a), în domeniull < p € 10 cu următorii para- 
metri (în paranteze se dau rapoartele accelerare la R(1) echivalente) : 


Ro = 0,5 paşi pe secundă (Sa = 6,2) (1.32) 
Pue =55 b=Tln=ă5 


Valoarea maximă a performanţei este, conform ecuaţiei (1.31b): 


R = 0,25 paşi pe secundă (5 = 3,1) (1.33) 


Iată interpretarea semnificației acestor parametri: valoarea p = 7,1 
înseamnă că programul paralelizat nu poate fi utilizat cu folos mai mult de 
7 procesoare, şi în acest mod problema este rezonabilă pentru execuţia 
pe sistemul / CAP cu 10 procesoare. Valorile (R, p, n) depind de overhead-ul 
de sincronizare. Dacă ar putea fi redus substanţial prin folosirea unui hard- 
ware de sincronizare sau îmbunătăţiri software, efectul ar fi cresterea p — 
=> și Î Ra. Deoarece sincronizarea este realizată de către calculato- 
rul gazdă, ar fi necesar ca acesta să fie mai rapid. Astfel, Ra este perfor- 
manţa maximă posibilă pentru program, cînd timpul de sincronizare este 
neglijabil. 90% din această performanţă poate fi atinsă dacă numărul 
procesoarelor p = 9py= 50, deci mai multe decit sint instalate în sistemul 
|CAP de la Roma. 

În fig. 1.23, performanța ideală ar urma linia pRu, de-a lungul căreia 
performanța este de p ori mai mare decit pentru un procesor (idealul acce- 
lerării liniare), Deoarece numai o parte a programului poate fi AER 
legea Amdahl limitează performanțele la mai puţin decit Ro =0,5 paşi/sec. 
În acest mod, zidul Amdahl este un plafon Amdahl. 

În absenta overhead-ului de. sincronizare, performanța ar respecta 
funcția pipeline cu p= 3,5 procesoare, lucru arătat de linia întreruptă. 
După depăşirea numărului de 5 procesoare, overhead-ul de sincronizare 
reduce rapid performanța care atinge un maxim la p = 7,1 procesoare 


cînd performanța este È = 0 1295, 0 accelerare de numai 3, = = 3,1 în com” 
paraţie cu performanța unui singur procesor. 

Comportarea performanţei programului î în funcţie de numărul de pro- 

cesoare este tipică pentru sistemele de calcul MIMD. Scopul este de a 


produce hard şi soft astfel incit Ro şi p să fie cît mai mari şi Puya Cît mai mic. 
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2. 


CALCULATOARE PIPELINE 


2.1 SELECȚIE ȘI COMPARAȚIE 


În acest capitol vom descrie în detaliu arhitectura, tehnologia și per- 
formanţa mai multor calculatoare pipeline. Pentru început vom discuta 
ultimele modele ale seriei CRAY de superealeulatoare, CRAY X-MP și 
CRAY-2. De departe acestea au avut succesul comercial cel mai mare, mai 
mult de 88 exemplare din modelele CRAY-I, CRAY-1S, -1M si S-MP 
fiind instalate pînă în anul 1985. În cursul anilor 1984/5 au fost instalate 
3 prototipuri CRAY-2 cu un CPU, iar pînă la sfirşitul anului 1987 au fost 
instalate 13 sisteme cu 4 CPU. 

A doua serie de calculatoare descrisă, CDC CYBER 205, este de ase- 
menea bine cunoscută şi datorită vînzărilor de aproximativ 30 bucăţi 
pină în 1985. Ar hitectura șa are o istorie lungă, inițiată cu CDC STAR 100, 
calculator proiectat la mijlocul anilor '60 și diferă suficient de mult de 
cea a calculatoarelor CRAY. Viitorul acestei linii este reprezentat de ETA! 
care poate fi descris ca un CYBER 205 cu 8 CPU cuplate la o memorie 
comună, implementat în tehnologie CMOS şi răcit cu hidrogen lichid. Cu 
acest model, arhitectura calculatorului CYBER 205 va fi de asemenea 
de mare interes. 

Cele 3 calculatoare vectoriale japoneze, FUJITSU -VP 100/200, 
HITACHI $-810/10 şi 20 și NEC SX1/SX2 au apărut mai tirziu şi, în mod 
evident, datorează mult arhitecturii calculatorului CRAY si CYBER 205. 
Devarece sint similare, le vom trata împreună, comparativ. 

Ultima serie de calculatoare pipeline pe care o discutăm este Floating 
Point Systems 164 şi 164;MANX. Aceste calculatoare au aproape aceeaşi 
arhitectură cu precedentele FPS-120B si FPS-100, din care au fost insta- 
late peste 5500 exc1..plare pînă în anul 1985.. Ele au av antajul că se situează 
în gama de preţuri a multor universităţi și întreprinderi industriale şi, cind 
sint programate optim, pot furniza rapoarte preț/performanțe exceptio- 
nale. De un interes special se bucură acceleratorul matricial, sau MAX, o 
placă din care pot fi cuplate pină la 15 la un FPS-164. Fiecare din ele este 
echivalentă cu 2 CPU FPS-164 ce lucrează sub controlul unui flux de ins- 
trucţiuni unic. Pentru probleme cu-matrici, se ating performanţe în dome- 
niul supercalculatoarelor la preţul unui minicalculator. O altă direcţie 
interesantă de dezvoltare este cea iniţiată de Clementi la IBM Kingston 
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şi Roma, ca şi de Wilson la. Universitatea Cornell, care conectat aproxima- 
tiv 10 FPS-164 la un calculator gazdă, rezultind astfel un sistem MIMD 
economic pentru rezolvarea a numeroase probleme științitice. De aceea, 
arhitectura calculatorului FPS-164 ne interesează foarte mult. 

În comparaţiile ce vor urma, vom descrie : structura fizică, pentru a 
crea o idee despre dimensiunea; şi forma mașinii, arhitectura de ansamblu, 
pentru a evalua ierarhia memoriei, căile de date, vitezele de transfer şi 
elementele de calcul, tehnologia, setul de instrucțiuni pentru a-i evalua 
bogăţia, sofi-ul disponibil, şi apoi în final, se apreciază performanța prin 
măsurători ale lui ra și na obținute, cind a fost posibil, prin execuţia unor 
programe pe calculatoarele respectiva. 


2.2 CRAY X-MP ȘI CRAY-2 


Atit CRAY X-MP, cit şi CRAY-2, sint produse de CRAY Research 
Inc. la Chippewa Falls, Wisconsin, SUA. Ele au derivat de la CRAY-I, 
proiectat de Seymour Cray şi instalat prima oară la Los Alamos Scientific 
Laboratory în 1976 (Auerbach 1976b, Hockney 1977, Russell 1918, Dung- 
worth 1979, Hockney şi Jesshope 1981). Apariţia lui CRAY X-MP care 
este versiunea: multiprocesor a lui CRAY-1, se datorează lui Steve Chen 
şi echipei sale (Chen 1984) de la Chippewa Falls. În 1982 a fost anunţată, 
o versiune cu 2 CPU, iar în 1984 o versiune cu 4 CPU. Informaţiile privind 
OCRAY-X-MP provin în primul rind din manualele de referință CRAY 
X-MP Computer Systems (CRAY 1982, 1984a, 1984b). Următorul produs 
din serie este CRAY Y-MP anunţat în 1987. Se anticipează că acesta va 
avea o perioadă a orologiului de 4—5 ns şi că va consta din pînă la 16 
CPU Aa Mw de memorie comună, plus memorie secundară cu capacitatea 
de 1 Gw. 

Pe de altă parte, CRAY-2 a fost dezvoltat de Seymour Cray ea un 
proiect separat la Chippewa Falls. El foloseşte tehnologie mai avansată 
gi un nou mod de răcire. Astfel, se pot folosi oroloziile cale mai rapide în mo- 
mentul de față, c1983 în calculatoarele produse comercial, cu o perioadă 
de 4,1 ns CRAY-2 a fost anunţat ca produs în 1935 ORAY 1985). 


2.2.1. Structura fizică 


Caracteristica cea mai izbitoare a calculatoarelor CRAY este di- 
mensiunea lor redusă. Aceasta este bine ilustrată în fig. 2.1 care prezintă 
un sistem CRAY X-MP. În centrul este chiar CRAY X-MP care este 
asamblat în aceeaşi structură cilindrică ca şi calculatoarele anterioare 
CRAY-1 şi CRAY-1S. În stinga se află sfertul de cilindru cu memoria 
SSD (solid state device), denumită uneori ca discul solid state, iar la dreapta, 
în alt sfert de cilindru, se află subsistemul de I/E (103). 

CRAY X-MP constă dintr-o coloană cilindrică centrală de 1,5 m dia- 
metru și 1,9 m înălțime, înconjurată de o bancheti circulară 62 face ca 
- diametru să fie la bază de aproximativ 2.7 m. Coloana centrală este 
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împărțită în trei segniente de 90”, fiecare formată din 4 coloane ce au la 
rîndul lor cîte 144 module cu circuite. Fiecare modul este format dintr-o 
pereche de plăci cu circuite montate pe părţile opuse ale unei plăci de 
cupru; care face un contact; termic bin cu barele de răcire din aluminiu, 


Fig. 2.1 O instalare CRAY X-MP tipică ce constă din calculator, în centru, 
subsislemul de J/E la dreapta și dispozitivul solid state (SSD) la stinga. 
(Fotografie furnizată de Cray Research Inc.) 


verticale, lucru arătat în fig. 2.2. Aceste bare de răcire sint evidente în 
coloana verticală din fig. 2.2. Prin conducte de oţel introduse în barele de 
răcire circulă freon, care menţine temperatura de 21 grade. Temperatura 
plăcii de cupru este menţinută la 25 grade, iar cea a modulelor între 
48 şi 54 grade Celsius. Bancheta de la bază maschează sursele de alimentare, 
și conductele sistemului de răcire. Două compresoare de 25 tone aflate în 
exteriorul sălii calculatorului completează sistemul de răcire. Un generator 
extern de 175 KVA asigură tensiunea de 208 V trifazat la 400 cicli. Consu- 
mul total de putere este de 128 kW, din care multă trebuie eliminată prin 
sistemul de răcire. CRAY X-MP ocupă 15 m? și cîntărește 5,25 t. Sub- 
sistemele IOS și SSD ocupă fiecare 5 m? și cîntărese 1.5 t. ` 

Fig. 2.3 prezintă un modul cu 2 straturi. Se atașează 2 plăci cu 
circuite la fiecare din cele 2 plăci de cupru, care fixate în mod rigid for- 
mează o structură tri-dimensională de 4 plăci. Între cele 4 plăci cu cir- 
cuite sînt; realizate conexiuni electrice. Apoi, modulul cu 4 plăci glisează 
în canelură, cum se vede în fig. 2.2. 
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CRAY X-MP își atinge în parte, performanța datorită aranjării 
compacte a plăcilor cu circuite care determină folosirea unor fire scurte 
și timpi de propagare mici. Acest lucru poate fi văzut în figura 2.4 care 
prezintă modul de aranjare al modulelor în calculatorul X-MP/48. În total 
există 12 coloane, ce formează un are de 270 grade. Cele 4 coloane cen- 
trale conţin cele 4 CPU, iar cele 4 coloane din stinga, respectiv din dreapta, 
conţin cei 8 Mw de memorie internă. i 
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Fig. 2.4 (a) Modul de organizare fizică e 
memoriei și unităților centrale în interiorul 
coloanei centrale a calculatorului CRAY 
N-—MP/48. (b) Alocarea poziţiilor plăcilor cu 
circuite fiecărei unităţi, în cadrul unui sfert. 
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2.2.2. Arhitectura | i | - 


Arhitectura de ansamblu a calculatorului CRAY X-MP poate îi 
descrisă ca una, două sau 4 CPU de tip CRAY-1 care partajează o memorie 
comună de pină la 8 Mw. Modelul iniţial, cu 2 CPU, introdus în 1982 
ocupă 3/4 dintr-un cilindru sub forma a 12 coloane, aşa cum se arată în 
fig. 2.1. Folosirea circuitelor cu densitate mai mare a permis în 1984 ca 
modelele cu 2 CPU sau 1 CPU să ocupe numai 6 coloane, în timp ce 
modelul cu 4 CPU utiliza complet cele 12 coloane. Modelul cu 1 CPU 
poate fi livrat cu 1,2 sau 4 Mw de memorie MOS static de 76 ns, organi- 
zată în 16 blocuri (1 sau 2 Mw) sau 32 blocuri (4Mw); modelul cu 2 CPU 
şi 2 sau 4 Mw bipolară ECL de 38 ns organizată în 16 respectiv 32 blocuri. 
Modelul cu 4 CPU are 8 Mw de memorie ECL organizată în 64 blocuri. 
Ultimul calculator este denumit CRAY X-MP/48 unde prima cifră indică, 
numărul unităţilor centrale, iar al doilea numărul Mw de memorie co- 
mună. 

Structura bloc din fig. 2.5 reprezintă sistemele CRAY X-MP/22 și 
X-MP/24. Fiecare CPU are 13 sau 14 unităţi funcţionale independente ce 
lucrează cu registre (modelul X-MP/48 are 2 unităţi vectoriale). Ca şi la 
CRAY-1, există 8 registre pentru adrese de 24 biţi (A0,....,A7), 8 registre 
scalare de 64 biţi (30, ...S7) şi 8 registre vectoriale (VO,...,V7), fiecare 
avind posibilitatea de a memora 64 elemente pe 64 biţi. Registrele pentru 
adrese au propriile unități pipeline pentru operaţiile de adunare şi înmul- 
ţire cu întregi, în timp ce registrele scalare şi vectoriale au propriile unităţi 
pipeline pentru adunare întreagă, deplasare, operaţii logice și numărare. 
Operaţiile în virgulă mobilă se execută în 3 unităţi pipeline, pentru înmul- 
ţire, adunare și aproximare a inversului (RA), care primesc operanzii fie 
din registrele scalare, fie vectoriale. Să observăm că operaţiile în virgulă 
mobilă scalare şi vectoriale nu pot fi executate simultan, ca la acele 
calculatoare care au unităţi scalare şi vectoriale separate (de ex. CYBER 
205). Un registru de 7 biţi (vector length — VL) specifică numărul elemen- 
telor (pînă la 64) implicate într-o operaţie vectorială, iar un registru pe 
64 biţi (vector mask — VM) are un bit pentru fiecare element al unui re- 
gistru vectorial şi este folosit pentru mascarea anumitor elemente, în sen- 
sul neparticipării la o operaţie vectorială. 

Pentru a se executa operații aritmetice, trebuie ca intii aateie să fie 
transterate din memoria comună în registre. Aceste operaţii se execută 
direct sau, în cazul registrelor S şi A prin transferuri pe bloc în registrele 
bufer T şi B care pot memora cite 64 elemente. Transferul la registrele 
S şi A se execută în modul un cuvint la fiecare două perioade de ceas, iar 
la registrele T şi B cite 3 cuvinte la o perioadă de ceas. Transferul între 
registrele vectoriale şi memoria comună se realizează pe 3 căi de date de 
61 biţi. Două căi furnizează date registrelor vectoriale din memoria comună, 
iar al treilea transferă rezultatul din registrul vectorial în memoria comună. 
Deoarece căile de date sint separate, într-o perioadă de ceas, se pot trans- 
fera 2 argumente și un rezultat, ceea ce înseamnă o rată de transfer de 


315 Mw/s per CPU. O mașină cu 4 CPU are, deci o lărgime a accesului 
la memorie de 1.2 Gw/s. Dacă nu se produc conflicte de acces la memorie 
(vezi următorul paragraf), se pot executa operaţii cu memorie cu această 
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viteză. Deoarece, cînd este încărcat fiecare pipeline în virgulă mobilă 
necesită două argumente şi produce un rezultat la fiecare perioadă de ceas, 
lărgimea de bandă este exact necesarul pentru realizarea unei operaţii în 
virgulă mobilă cu date din memorie. Dacă, simultan, mai trebuie să fie 
active şi alte unităţi pipeline, rezultatele intermediare trebuie memorate 
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Fig. 2.5 Diagrama bloc a lui CRAY X—MP/2, care prezintă două CPU, memoria. 

şi căile principale de date. Literele reprezintă abrevierile Cray pentru registrele 

mașinii (de exemplu, A, B, S, T și V). Ele sint urmate de un număr zecimal care 


arată numărul de registre. 64” reprezintă numărul de biţi ai registrelor. SB, ST, 
VM şi VL sint alte registre. 'F'la sirșit semnifică operaţii în virgulă mobilă. 


în registre. În acest mod este proiectată arhitectura orientată-registru a 
maşinilor CRAY. Avantajul registrelor este că, atunci cînd sint folosite 
optim, numărul acceselor la memorie se micşorează şi se pot atinge viteze 
mari de calcul pentru buclele interioare. Costul este complexitatea mai mare 
a programării necesare pentru atingerea utilizării optime a registrelor, 
indiferent dacă se realizează de către compilator sau prin codificare manuală 
în limbajul de asamblare. 
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„__ Pentru fiecare CPU există 4 porturi în memoria comună, dintre care 
unul (etichetat de I/E) este rezervat pentru subsistemul de intrare/ieșire 
şi SSD. Celelalte trei porturi (etichetate A, B, C) sînt cele folosite pen- 
tru operaţiile cu registre. Toate operaţiile de transfer cu registrele A și B 
folosesc portul C. Transferurile de blocuri de la memoria comună la; regis- 
trele B folosesc portul A, iar la registrele T folosesc portul B. Operația 
inversă de la registrele B și T foloseşte portul C. Transferurile între memoria 
comună și registrele vectoriale folosesc toate cele 3 porturi: porturile A 
şi B pentru a încărca registrele cu operanzi din memorie și portul C pentru 
operaţia inversă. Astfel se realizează trei accese la memorie într-o perioadă 
de ceas. Cu 4 porturi şi pină la 4 procesoare se accesează pînă la 64 blocuri 
de memorie, sistemul de interconectare a memoriei la CRAY X-MP este 
complex. Cheung și Smith (1984) au analizat: sistemul și au propus unele 
îmbunătăţiri. In continuare vom descrie sistemul X-MP/24 cu 2 CPU şi 
32 blocuri de memorie. Extensia la mai multe CPU blocuri urmează aceeaşi 
strategie. 

Memoria este împărţită în 4 secţiuni, fiecare cu 8 blocuri de memorie 
a 128 Kw. (Cel mai mare X-MP/48 are 16 blocuri pe secţiune, cu fiecare 
4 blocuri consecutive în aceeaşi secțiune). Există o cale de date indepen- 
dentă denumită linie (line), de la fiecare CPU la fiecare secţiune de 
memorie. Cele 4 linii ale fiecărui CPU sînt conectate cu un comutator în 
cruce la căile A, B, C şi de I/E ce vin de la unităţile funcţionale. Adresa- 
rea este întrețesută peste secţiuni, astfel că cei mai puţini semnificativi 2 
biţi ai adresei dau numărul secţiunii, iar cei mai puțini semnificativi 5 
biţi dau numărul blocului. Cînd este accesată, o linie este ocupată pentru o 
perioadă de ceas, iar un bloc pentru 4 perioade de ceas. 

Conflictele de acces pot avea loc la X-MP în mai multe situaţii. Con- 
flictele de acces la bloc, cu care sîntem familiari la alte sisteme, au loc cînd 
un bloc este accesat în timp ce este încă în curs de satisfacere a unei cereri 
anterioare. Un conflict de simultaneitate intervine cînd un bloc este accesat 
simultan pe linii independente de către CPU diferite. Această situaţie se 
rezolvă prin atribuirea unei priorităţi diferite unităţilor centrale la fiecare 
4 perioade. În sfirșit există un conflict pe linie (line conflict) în cadrul 
aceluiaşi CPU, care intervine cînd două sau mai multe din căile A, B, C 
sau de I/E solicită un acces la aceeaşi secţiune de memorie în același ciclu 
maşină. Conflictele de linie sînt rezolvate prin atribuirea priorităţii unei 
referinţe vectoriale. Dacă ambele referințe au aceeaşi paritate, primul acces 
solicitat este prioritar. Dacă intervin conflicte cînd se accesează vectori, 
element cu element, ele trebuie rezolvate şi se înserează stări wait. Aceasta 
înseamnă că intervalul de timp între referinţele elementelor vectorilor nu 
este previzibil sau constant. Deoarece aceste elemente alimentează unită- 
tile pipeline, diverse nivele ale lor pot fi lipsite de operanzi. Aceste goluri 
(sau bubbles”) generează o degradare a vitezei de calcul aritmetice 
medii, funcţie de modul de desfăşurare a acceselor la memorie. Deoarece 
conflictele de acces la memorie pot depinde de activitatea unităţilor cen- 
trale care nu sînt controlabile de către programator, este probabil că de- 
gradarea să fie imprevizibilă. Totuși, în cazul cel mai rău, a 4 CPU care 
execută 3 accese la memorie într-o perioadă de ceas la acelaşi bloc, fiecare 
CPU ar primi accesul la fiecare 16 perioade în comparaţie cu o rată maximă 
de 3 accese în fiecare perioadă, ceea ce duce la o degradare teoretică ma- 
ximă a lărgimii de bandă la memorie printr-un factor de 48. Cheung şi 


110 


scalare lucrează exclusiv cu date pe 64 biţi aflate în registrele S, iar rezul- 
tatele, cu excepţia numărului de biţi (population count) sînt returnate în 
registrele S. Adunarea întreagă se realizează în complement faţă de 2, 
Deplasările pot fi executate atit cu registrul S simplu (2 perioade de ceas), 
cît şi cu 2 registre S concatenate (3 perioade de ceas). Unitatea logică, ce 
execută operaţii bit-cu-bit cu date pe 64 biţi, este parte a modulelor ce 
conţin registrele S. Pentru că datele nu părăsesc modulele unde se află 
registrele S, funcţia poate fi executată într-o singură perioadă de ceas. 
Unitatea de numărare a biţilor numără biții cu valoarea 1 (în 4 perioade 
de ceas) sau numărul de zerouri ce precedă primul bit 1 al operandului 
(3 perioade de ceas). Rezultatul pe 7 biţi este returnat; unui registru A, 

Unităţile vectoriale folosesc operanzi ai unei perechi de registre V 
sau ai unui registru V şi unui registru S. Rezultatul este depus într-un: 
registru V sau registru mască. În cursul fiecărei perioade de ceas se trans- 
mit unităţii funcționale perechi succesive de operanzi. Rezultatul pără- 
seşte unitatea 1 perioade de ceas mai tirziu. După aceea, rezultatele se 
obţin la fiecare perioadă de ceas. Numărul elementelor procesate de o 
operaţie vectorială este egal cu cel memorat în registrul de 7 biţi a lun- 
gimii vectorului (VL). Elementele se numerotează cu 0, 1, 2...Unele 
operaţii vectoriale sînt controlate de registrul de mascare vectorial (VM). 
Bitul n al măștii corespunde elementului n al registrului vectotial. Re- 
gistrul VM este folosit de instrucţiuni care selectează anumite elemente ale 
vectorului, sau combină 2 vectori în unul singur (vezi $2.2.4). Unitatea de 
adunare vectorială a întregilor execută sume şi scăderi între numere pe 
64 biţi reprezentate în complement față de 2. Unitatea de deplasare vec- 
torială deplasează conținuturile pe 64 biţi ale elementelor vectorului sau 
pe 128 biţi ale perechilor de elemente vectoriale adiacente. Numărul de 
deplasări este indicat prin instrucţiune sau un registru A. Unitatea logică 
vectorială execută operaţii logice bit-cu-bit cu elemente ale unui vector şi 
creează conținutul registrului de mascare, VM. 

Cele trei unităţi funcţionale în virgulă mobilă execută operaţii în 
virgulă mobilă atît cu scalari, cit şi cu vectori. De aceea, argumentele şi 
rezultatele se află în registrul S sau V. Numărul reprezentat în virgulă 
mobilă are o mantisă de 48 biți, ce furnizează o precizie de aproximativ 
14 cifre zecimale şi un exponent pe 16 biţi, ce defineşte un domeniu de 
valori normalizate între 10-20 și 10*%%, Unităţi separate execută adunarea, 
înmulţirea şi împărţirea. Împărţirea se realizează cu aproximări recipro- 
ce, iar înmulţirea cu o procedură iterativă. Astfel, operaţia de împărţire 
poate fi realizată în manieră pipeline. 

Algoritmul de calcul al raportului scalar $1/32 este implementat cu 
4 instrucţiuni mașină ce realizează următoarele operaţii : 


unitatea RA S3=1/52 aproximare a inversului (2.22) 
S4—(2—83+52) iterație inversă (2.2b) 

unitate de S 
înmulțire S5 =—931+83 multiplicare (2.2c) 
f S6 = S4455 multiplicare - (2.2d) 
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concurent toate, se împart în 4 grupe. Perioada ceasului, T, era la pri- 
mele modele CRAY X-MP de 9.5 ns. La modelele ulterioare a fost redusă 
la 8.5 ns. În continuare vom folosi valoarea de 9.5 ns. 


ia A Nr. de peri- 
Unitatea funcţională | (ns) oade S i 

Unilăţile de adresare (24 biți) i 

(1) adunare întreagă 19 2 

(2) înmulţire întreagă | 38 4 
Unităţile scalare (64 biţi) 

(3) adunare întreagă 28.5 3 

(4) deplasare i 19 sau 28.5| 2 sau 3 

(5) operaţii logice 9.5 1 

(6) numărarea biţilor | 28.5 sau 38| 3 sau 4 
Unităli în virgula mobilă (64 biţi) 

(7) adunare 57 6 

(8) înmulțire | 66.5 7 

(9) aproximare reciprocă (RA) 133 14 
Unităli vectoriale (64 biţi) 

(10) adunare întreagă 28.5 3 

(11) deplasare ` 38 4 

(12) operaţii logice 3 19 2 

(13) numărarea biților 57 6 
Operații cu memoria operalivă (64 biţi) 

Încărcare registre scalare 133 14 

Încărcare registre vectoriale (64 elemente) 769.5 81 


Toate unitățile funcționale sînt pipeline și pot accepta un nou set 
de argumente la fiecare perioadă de ceas. În lista de mai sus, numărul 
perioadelor este lungimea unității pipeline în ns sau perioade de ceas. 
La ultimele unităţi este variabila | utilizată în $ 3.1. În cazul instrucțiuni- 
lor scalare, este intervalul de timp scurs de la lansarea în execuţie a ins- 
trucţiunii pînă la obținerea rezultatului (ready) în registrul scalar, unde 
este disponibil pentru alte instrucţiuni. În cazul unei instrucțiuni vecto- 
riale este necesară o perioadă de ceas suplimentară pentru a transfera fie- 
care operand de la un registru vectorial la o unitate funcţională, iar apoi 
o nouă perioadă pentru a transfera fiecare rezultat din pipeline în registrul 
vectorial. Deci, timpul de execuţie a unei instrucţiuni vectoriale cu n ele- 
mente este : 


t=(Q+2+n)r (2.1a) 

Comparînd ecuaţia (2.1a) cù formula generală (1.6) vedem că tìm- 

pul de iniţializare şi lungimea performanţei jumătate pentru operaţii vec- 
toriale registru-la-registru sînt : l i 

s=3, np=s+l—1=1+2 — (21b) 

Unitățile de adresare calculează adresele, indecgii prin operații cu . 

întregi mai mici decit aproximativ 16 milioane în complement față de 2. 

Operanzii și rezultatele se obțin, respectiv depun, în registrele A. Unităţile 
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Smith (1984) analizează modalităţi de acces la memorie mai realiste şi 
ajung la concluzia că performanța se degradează în mod obişnuit cu 2,5 
pînă la 7% în medie datorită conflictelor de acces la memorie, iar în si- 
tuaţiile cele mai defavorabile cu 20 pină la 33% 

Dispozitivul SSD este un mediu de memorie MOS cu capacitatea 
de la 64 la 1024 MB (pînă la 128 Mw organizată în 128 blocuri), care poate 
fi folosit în locul discului magnetic, pentru memorarea datelor specifice 
unor probleme foarte complexe, sau de către sistemul de operare. De 
aceea, este denumit disc solid state și funcţionează ca un disc cu timpul 
de acces mai mic de 50 mierosecunde. Poate îi conectat la un X-MP/2 
prin unul sau două canale de 120 MB/s, iar la un X-MP/2 cu un astfel de 
canal. X-MP/1 poate fi conectat cu un canal de 100 MB/s. 

Calculatoare front-end, benzile magnetice, unităţile de disc, sînt întot- 
deauna conectate la CRAY 'X-MP prin “Subsistemul de IE (IOS). Primul 
a fost introdus în 1979 pentru a creşte posibilitățile de I/E ale caleulatoru- 
lui CRAY-1 iniţial la mediile de memorare magnetică (benzi și discuri). 
Versiunea îmbunătățită produsă în 1981 este o parte integrantă a sisteme- 
lor CRAY X-MP instalate şi constă din 2 pină la 4 procesoare de IJE 
pe 16 biți (IOP) și un bufer de memorie de 8 Mw. Primul IOP gestionează 
comunicațiile cu pină la 3 procesoare front-end, iar al doilea IOP gestio- 
nează comunicațiile cu pînă la 16 unități de dise și memoria comună a 
calculatorului X-MP via bufer. Al treilea și al patrulea IOP sînt gestio- 
nate şi fiecare poate fi folosit pentru a adăuga încă 36 unităţi de disc. 
Unitatea de dise DD-49 proania în 1984 are o capacitate de 1200 MB şi o 
rată de transfer de 10 MB/s. I)e asemenea, există o cale opţională directă 
între IOS şi SSD cu o rată de transfer de 40 MB js. Toate unităţile centrale 
ale calculatorului CRAY X-MP partajează o singură secţiune de I/E care 
comunică cu IOS şi SSD. Un canal de 1250 MB's asigură transferul. de 
date cu SSD, iar două canale de 100 MB/s realizează transferurile pentru 
IOS. 4 canale de 6 MB's transferă cererile de I/B de la CPU și alte cal- 
culatoare la IOP. 

Fiecare CPU are 4 bufere pentru instrucțiuni cu capacitatea de 128 
grupuri de 16 biți fiecare. La X-MP/2 toate cele 8 porturi la memorie sint 
folosite pentru extragerea instrucţiunilor operaţie care are loc cu o frec- 
venţă de 8 cuvinte (32 grupuri) într-o perioadă de ceas. Din acest motiv 
toate celelalte referințe la memorie ale celor două procesoare sînt suspen- 
date în timpul unei extrageri de instrucţiuni de către oricare din proce- 
soare. Un pachet de 16 cuvinte de 64 biţi ce definește starea unui job 
utilizator poate fi transferat în 380 ns. 

Secţiunea de intercomunicaţii a lui CRAY X-MP conp trei grupe 
de registre comune (5 grupe la X-MP/48), care pot fi accesate de către 
toate CPU pentru comunicații şi sincronizare. De asemenea, există un 
ceas comun care permite evaluarea: timpului de execuţie al programului. 
Impulsurile de ceas furnizate tuturor unităţilor centr ale sînt; sineronizate. 
Registrele comune sint 8 registre SB pe 24 biţi, 8 registre ST pe 64 
biţi şi 32 registre pe 1 bit pentru sincronizare sau semaforizare (SM). 
Anumite instrucţiuni realizează transferul conţinutiilui lor în epistole 
Aşi S. 

Cele 13 unităţi funcţionăle preiau date şi depun date btimai în re- 
gistrele A, S, V, şi în cele de mascare. Unităţile funcţionale, care pot lucra 
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Aceasta poate fi recunoscută ca iterația Newton pentru inversul lui 
52, deoarece este aceeași problemă cu cea a găsirii zeroului unei funcţii 


f(x) = S2—x-! l (2.3a) 
care are derivata 
f'(x) = x-2 (2.3b) 
Iieraţia Newton se defineşte cu 
x&+b = x — f(x) (az). (2.36) 
deci 
xD = (2 — S2*x™) x (2.3d) 


unde n este numărul iterației. În exemplul anterior, instrucțiunea 
realizează o aproximare a inversului lui $2 folosind unitatea de aproxi- 
mare a inversului. Inversul este memorat de S3 şi corespunde lui x din 
ecuaţiile (2.3c, d). Instrucţiunea (2.2b) calculează expresia din paranteze 
din ecuaţia (2.34) și este executată de unitatea de înmulțire în virgulă 
mobilă. Instrucţiunea de înmulţire (2.2c) multiplică aproximarea inițială 
a lui (52) cu S1, iar (2.2d) aplică corecţia specificată de ecuaţia (2.3). 
După o iteraţie rezultatul se obține corect pe 47 biţi, corespunzător pre- 
ciziei mantisei pe 48 biţi. Motivul multiplicării înaintea corecţiei este că 
instrucţiunile (2.2b) şi (2.2c), deşi folosesc aceeaşi unitate, pot fi lansate 
în execuţie la perioade de ceas succesive; în timp ce instrucţiunea (2.24), 
dacă ar fi executată înainte ar trebui să aştepte terminarea instrucţiunii 
(2.2b), deoarece are nevoie de valoarea lui S4. Împărţirea se încheie în 29 
perioade de ceas, corespunzător unei viteze de 2,8 Mtlop/s. Dacă instrucţiu- 
nile (2.2) ay fost înlocuite de instrucţiuni vectoriale şi scrise în ordinea 
(2a, 2c, 2bk2d), instrucţiunile (2.2a) şi (2.2c) se vor înlănţui împreună 
(vezi 3 paragrafe mai departe). Împărţirea a 2 vectori, element cu element, 
se va putea Sxecuta cu o viteză medie de 27 Milop/s. 

Instrucţiunile calculatorului CRAY X-MP sint codificate fie cu un 
grup de (16 biţi), fie cu 2 grupuri (32 biţi). Înaintea execuţiei, înstrucţiu- 
nile se află în 4 bufere pentru instrucţiuni, fiecare cu capacitatea de 128 
instrucţiuni de un grup sau combinaţii echivalente din instrucțiuni de lun- 
gime diferită. Buferele sînt încărcate ciclic din memoria operativă. Cind 
o instrucţiune necesară nu se află în bufer, se încarcă următorul bufer 
din ciclu cu cîte un cuvînt pe 64 biți (4 grupe) din fiecare bloc de me- 
morie, în paralel. Există un numărător de program pe 22 biţi (P) ce con- 
ţine adresa următoarei instrucțiuni care urmează a fi executată, grupul 
următoarei instrucțiuni pe 16 biţi (NIP) şi un registru pe 16 biţi al gru- 
pului curent (CP) pentru instrucţiunea ce aşteaptă să fie lansată în exe- 
cuţie, ca şi un registru pe 16 biţi care păstrează grupul interior al unei 
instrucţiuni cu 2 grupuri. 

O instrucţiune poate îi lansată în execuţie (trimisă unităţii funcţio- 
nåle pentru a fi executată), dacă unitatea nu este ocupată cu o operaţie şi 
dacă registrele necesare pentru operanzi şi rezultat nu sint rezervate de 
alte instrucțiuni în curs de execuție. Instrucţiuni diferite pot rezerva re- 
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gistre, în modul prezentat de manual CRAY 1976). În linii mari, o 
instrucţiune vectorială, rezervă registrul ce urmează să primească rezulta- 
tul ca și registrele cu operanzi pentru toată durata operaţiei. Dacă o ins- 
trucțiune vectorială foloseşte un registru scalar, el nu se rezervă, deoarece 
unitatea, funcţională păstrează o copie a lui. Deci, în perioada de ceas ce 
urmează lansării în execuţie æ instrucţiunii, conţinutul lui poate fi modifi- 
cat. Similar, valoarea registrului ce păstrează lungimea vectorului, VL, 
poate fi modificată imediat după trecerea la execuţia instrucţiunii. De 
aceea, instrucţiuni cu vectori de lungimi diferite se pot executa concurent. 
În cazul instrucţiunilor scalare, instrucțiunea rezervă numai registrul 
pentru rezultat, pentru a preveni citirea lui de alte instrucţiuni, înainte 
ca valoarea lui să fie actualizată. À 

O caracteristică importantă a arhitecturii calculatorului CRAY X-MP 
este abilitatea sa de a înlăntui o serie de operații vectoriale, astfel încit să 
poată opera împreună ca un pipeline continuu (Johnson 1978). Diferența 
între operațiile neinlănţuite şi cele înlănțuite este prezentată în fig. 2.6. 
Diagrama din zona superioară ilustrează evaluarea timpului de execuţie 
dacă nu se inlănţuie operaţiile. i 

Timpul pentru o operație neînlänțuită formată dintr-o secvență de m 
instrucțiuni vectoriale este 


m 


t= F ala + + (n—1)] (2.48) 


i=l 


Fig. 2.6 Diagrama de timp (a) pentru trei operații vectoriale 

neinlănţuite, a, Db, şi c și (b) pentru aceleași operaţii dacă pot fi 

înlănțuite. În acest exemplu, s + 1 = 10 şi nu = 50. Secvența de 

prelucrare în timp a elementului k se obține cu o linie orizontală 

trasată k unităţi sub axa timpului. Un element parcurge unitatea 

pipeline pentru prelucrare cind aceată linie traversează trapezul 
corespunzător operaţiei. respective. 
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Exprimat ca timp o operaţie vectorială devine 


t 1 _ 
— = — (ñn +n) (2.4b) 
m Ëo 


unde performanța asimptotică medie este 
Po = t! (2.4c) 
iar lungimea performanței jumătate medie este 
z LOE : 
EFA $ (a +L-—1)=(s+1—1) (2.4d) 
i=l 


În cazul a m operaţii vectoriale înlănțuite avem 


t=r 5 (3: + l) + (n — 1) (2.52) 

i=l 

Se aplică ecuația (2.4b) dar cu 
fo = mr! i (2.5b) 
Di = $ (s +1l)— 1=m(s +1)—1 (2.50) 


i=l 


Rezultatele finale din ecuațiile (2.4d) şi (2.5c) se obțin dacă toate unitățile 
pipe au același timp de inițializare şi număr de etaje, așa cum este de obicei. 
Din cele de mai sus vedem că o secvență de operații vectoriale neinlănțuite 
se comportă la fel ca o singură operație. Totuși, în cazul înlănţuirii a m 
operații vectoriale „atit performanţa asimptotică, cît si lungimea performan- 
tei jumătate cresc de m ori. Acest efect a fost asociat în cap. 1 cu mul- 
tiplicarea procesoarelor. El intervine în cazul înlănțuirii deoarece cele m 
pipeline lucrează concurent, ceea ce în mod similar creşte ro Și 
cantitatea de paralelism, na. În cazul operaţiilor neinlănţuite unităţile 
pipeline lucrează secvențial şi de aceea rata medic de calcul sau paralelis- 
mul nu au cum să crească. 

Arhitectura calculatorului CRAY X-MP poate îi prezentată pe scurt 
cu notația ASN din $1.2.4. Dacă se ignoră operaţiile de I/E și detaliile de 
conectare a registrelor, se obţine: 


C(CRAY X-MP/nm)=nC1(CPU) x (8m)M1Exeu(common) ; 

CA(CPU) =Iv?âss[14Bp—M2—( (22, (02 25 9], ; 

M2(registers) = (8Mas,u( vector), 72M,„sa(scalar), 
T2M.oa(address)) ; 

14Ep=13Fpa 5BPen 4Bpa 2Bpuj ; 
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3Fpu(floating-point)=(Fpu(4-), Fpu(+), Fpe(-) ; 

5Bpe(vector)= (Bpas(integer-+ ), Bpa(shitt), 2Bpa(logical), 
Bpe(pop. count)! ; 

4Bpea(scalar) = {Bpel integer+), BPe(shift), Bpe(logical), 
Bpea(pop. count)! ; 

2Bpaa(address) = (Bpa(integer+), Bpa(integer +)? 


2.2.3 Tehnologia 


Memoria operativă de 8 Mw a calculatorului CRAY X-MP/48 se 
compune din circuite VLSI de 64 Kb bipolare sau MOS statice cu un timp 
de acces de 38 ns sau 4 perioade de ceas. Spre deosebire de ORAY-1 care 
folosea, circuite cu 4/5 porţi NAND, circuitele calculatoarelor CRAY X-MP, 
registrele A și S sînt construite din circuite cu masive (array) de 16 porţi, 
definite printr-un timp de propagare de 300—400 ps. Conexiunile între 
module se realizează ca şi la CRAY-1 cu perechi răsucite de fire. 


2.2.4. Setul de instrucțiuni 


CRAY X-MP are aproximativ 128 instrucţiuni (cod de operaţie pe 7 
biţi la majoritatea instrucţiunilor). Majoritatea instrucţiunilor conţin 3 
adrese, specificind sursa, a doi operanzi şi destinaţia rezultatului. Deoarece 
toate unităţile funcţionale lucrează registru-la-registru, sint necesari 
numai 3 biţi pentru definirea sursei sau destinaţiei, de unde situaţia că 
3 adrese plus codul operaţiei pot fi codificate cu un grup de 16 biți. Toate 
instrucţiunile, mai puţin 18, sînt cu un singur grup. Instrucţiuni care folo- 
sesc adrese de memorie (22 biţi) pentru transferuri de blocuri sau salt 
folosesc două grupuri și sînt pe 32 biţi. Instrucţiunile care conțin constante 
pe 22 biţi ce urmează a fi transferate în registrele A sau B sînt, de ase- 
menea, pe 32 biţi. 

Instrucţiunile execută operaţii logice, de deplasare, de salt, de calcul 
aritmetic cu întregi sau numere reale în virgulă mobilă, în cele 13 unităţi 
funcționale. Iată, în continuare, citeva exemple în notații CAL (limbajul 
de asamblare). Formatul instrucţiunii este : 


lgihjilj iki milop codul este g sau (g/h) 

1413131313 16 biţi | (2.6) 
ilgrup 1 |igrup 2| 

Read/Write : 

Bjk, Ai „AO Read (Ai) words to B register jk from (AO) 

AO Tjk, Ai Store (Ai) words from T register jk to (AO) 

Ai exp, Ah Read from ((Ab)+jkm) to Ai. (AO=0, jkm=ezxp) 
exp, Ah Si Store (Si) to ((Ah)+-jkm). (A0=0, jkm=exp) 
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Vi, A0, Ak .-. 


Read (VL) words to Vi from (A0) incremented by (Ak) 


A0, Ak Vj Store (VL) words from Vj to (A0) incremented by (Ak} 
Ai 5j Transmit (Sj) to Ai 
Bjk Ai Transmit (Ai) to Bjk - 
Si Tjk Transmit (Tjk) to Si 
SMjk 1 Set jth semaphore register 
Ai SBj Read jth shared B register 
Control l 
J Bjk Branch to (Bjk) o ; 
R exp Return branch to ijkm (=exp) ; set BOO'to instruction 
i counter 
_JSZ exp Branch to ijkm (=exp) if (SO)=0 
JAP exp Branch to îjkm (=exp) if (AO) positive 
„Logic: | 
Si Sj&Sk Logical product of (Sj) and (WE) to Si 


Vi Sj !Vk Logical sum of (Sj) and (Vk) to Vi 

SO Si< exp Shift (Si) left jk(=exp)places to SO 

Si Si, Sj< Ak Shift register pair (SiSj) left (Ak) places to Si 
Arithmetie : 

Si exp Transmit jkm (=exp) to Si 

Ai Aj+Ak Integer sum of (Aj) and (Ak) to Ai 

Si  Sj+Sk ` Integer product of (Sj) and (Sk) to Si 

Vi Sj+IVk Floating product of (Sj) and (Vk) to Vi 


Si /ĦHSj Floating reciprocal approximation of (Sj) to Si 
Vi Vj+IVk 2.0-prođuct of (Vj) and (Vk) to Vi; reciprocal iteration 
Miscellaneous : 

VL Ak Transmit (Ak) to VL 

Si VM Transmit (VM) to Si 

Si RT Transmit (real-time clock) to Si 

Ai PSj Population count of (Sj) to Ai 

Ai ZSj Leading zero count of (Sj) to Ai 


Parantezele asociate cu un număr de registre semnifică conținutul 
acelui registru, iar exp. poate fi înlocuit cu o expresie aritmetică simplă, 
a cărei valoare este introdusă în instrucțiune : 

Două instrucțiuni ale calculatorului CRAY X-MP merită o atenție 
specială. Acestea sint : 

Set Mask — cei 64 biți ai registrului vectorial mască (VM) corespund 
biunivoc celor 64 elemente ale unui registru vectorial. Dacă elementele 
satisfac o, condiţie, bitul corespunzător din VM devine unu, altfel este 
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zero. Condiţiile sint nul, nenul, pozitiv sau nul, negativ. Astfel : 

VM V5, Z face 1 biții VM unde elementele V5 sint nule; 

VM V7, P face 1 biții VM unde elementele V7 sint pozitive sau nule. 

Vector Merge — conținuturile a două registre vectoriale Vj şi Vk siat 
combinate într-un singur vector rezultat Vi funcție de registrul VM. 
Dacă bitul din poziția 1 al registrului VM este 1 elementul 1 al lui Vj 
devine elementul 1 al registrului rezultat, altfel elementul 1 al registrului 
Vk este elementul 1 al rezultatului. Vj poate fi si un registru scalar. Valoa- 
rea, registrului de lungime al vectorului determină numărul elementelor 
care sint combinate. 

Astfel : 

Vi Vj! Vk E VM combină Vj cu Vk pentru a produce Vi funcţii de VM 

V7 S2!V6 VM combină S2 și V6 pentru a produce V7 funcţii de VM. 

Scopul instrucţiunilor de mascare şi combinare este de a permite eva- 
iuarea condiţionată cu instrucţiuni vectoriale. Să considerăm evaluarea 


DO 3 1=1,N 

IF (CO) 2, 1,1 
1 A(D=EXPR 1 

GO TO 3 (2.7 
2 A(U)=EXPR 2 
3 CONTINUE 


unde A(T) ia valoarea expresiei EXPR 1 dacă C(I) este nul sau pozitiv, 
sau valoarea expresiei EXPR 2 dacă C(1) este negativ. Dacă presupunem 
că A(I) şi C(I) sint memoraţi în elementul {I—1) al registrelor vectoriale 
V3, respectiv V4, iar VL conţine valoarea lui N (presupusă pentru sim- 
plitate <64), atunci codul de mai sus poate fi implementat cu următoarele 
instrucțiuni vectoriale. 

ra evaluează expresia EXPR 1 pentru toate elementele şi plasează-le 
in V1; 

(2) evaluează expresia EXPR 2 pentru toate elementele şi plasea- 
ză-le în V2; 

(3) VM VA, P fă biții VM 1 uude elementele V4>0; 

(4) V3 V1!'V28&VM combină V1 şi V2 conferm VM. 

Observăm că în cadrul acestei metode expresiile EXPR 1 și EXPR 2 
trebuie evaluate pentru toate elementele ‚chiar dacă în vectorul final V3 
vor fi folosite numai N din cele 2N rezultate. Evident, este o risipă de 
operații aritmetice, dar care permite folosirea instrucțiunilor vectoriale. 
Alternativ, codul FORTRAN (2.7) trebuie examinat element-cu-element, 
iar expresia EXPR 1 şi EXPR 2, evaluate aşa cum se arată, dar nu în 
acelaşi timp. În acest caz nu se execută operații aritmetice care nu sint 
necesare ; totuşi, operaţiile aritmetice scalare folosite sînt mai lente decît 
cele vectoriale ale primei metode. Evident, va exista o anumită lungime a 
vectorului de la care metoda de combinare vectorială este mai rapidă decît 
evaluarea cu instrucțiuni scalare, 
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Două situaţii pun probleme deosebite calculatoarelor paralele. Acestea, 
sînt operaţiile de dispersie (scatter) şi grupare (gather), care pot fi defi- 
nite cu următorul cod FORTRAN : 


(1) Scatter 


DO 1 1=1, N 
1 XINDEX(I)=Y() (2.8a)) 
(2) Gather 
DO 1 I=1, N | 
1 YU)=X(INDEX()) (2.8b) 


În fiecare caz, masivul întreg INDEX conţine un set de indici care pot 
specifica adrese care sînt distribuite arbitrar în memoria operativă a cal- 
culatorului. O operaţie de dispersie distribuie un set; ordonat de elemente 
Y(I) în memorie, corespunzător șablonului de adrese al masivului INDEX. 
Operația inversă, de grupare, colectează elementele distribuite X şi le sor- 
tează în masivul X. Aceste operaţii sint folosite în problemele de sortare ; 
în reordonare ca, de exemplu, la transformata Fourier rapidă şi în asigna- 
rea sarcinii (operaţie de distribuire) şi interpolare a cimpului (operaţie 
de grupare) în codul de simulare pentru un model de structuri de parti- 
cule (vezi Hockney şi Eastwood 1981). 

Modelele CRAY X-MP anterioare celui cu 4 CPU anunţat în 1984, 
ca şi calculatoarele anterioare CRAY-1 și CRAY-19 nu aveau hardware 
sau instrucţiuni pentru implementarea: operațiilor de dispersie și grupare. 
Bucle ca (2.8) trebuie executate de instrucţiuni scalare şi au o performanţă 
dezamăgitoare de aproximativ 2.5 Mop/s (Hockney şi Jesshope 1981). 
Calculatorul CRAY X-MP/4 posedă instrucţiuni de dispersie și grupare 
ca și instrucţiuni de comprimare a indecșilor care fac ca aceste operaţii să 
se execute la viteze vectoriale mult mai mari :. 

„A0, Vi Vj vector scatter Vj cu folosirea indicilor 
Vi, A0, Vj vector gather în Vi folosind indicii Vj | 

Vi, VM Vj, Z comprimarea indicilor de Vj zero, obţinerea indicilor 
elementelor zero ale lui Vj ca un vector comprimat în Vi şi se face VM=1 
în poziţiile binare corespunzătoare. 

Instrucţiunea, de grupare se execută cu unul din cele două porturi de citire, 
iar instrucţiunea de dispersie în portul de scriere. Instrucţiunea de compri- 
mare a indicilor se execută în unitatea logică vectorială, | 

Folosind aceste. instrucţiuni, bucla (2.8a) poate fi implementată cu 

VO ,A0, 1 încărcarea vectorului Y(I) in VO 

V1 „A0, 1 încărcarea vectorului INDEX(I) în V1 (2.80) 

„A0, V1 VO vector scatter la X(INDEX(I)), 
iar bucla pentru operaţia de grupare cu 

VO „A0, 1 încărcarea vectorului INDEX(I) în VO 

V1 ,A0, VO gather X(INDEX(I)) în VI (2.8d) 

„A0,1 V1 salvarea vectorului Y în memoria comună 

Metoda de vectorizare condiţionată a expresiilor explicată în asociere 
cu instrucţiunea de combinare vectorială, este ineficientă, deoarece ope- 
rațiile aritmetice ale ambelor alternative ale instrucţiunii IF din (2.7) 
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trebuie executate ; chiar dacă este necesară o singură alternativă — rezulta- 
tele nedorite sînt abandonate în cursul operaţiei de combinare. Dacă numă- 
rul elementelor care urmează să fie modificate prin execuţia instrucţiunii 
IF reprezintă un procent mic din numărul total, o strategie mai bună este 
a culege indicii elementelor vectorului care satisfac condiţia cu instrucțiu-" 
nea de comprimare a indicilor și apoi de a grupa elementele într-un vector 
comprimat, Apoi se execută operaţiile aritmetice numai cu vectorul com- 
primat care este mult mai scurt decit originalul. Rezultatele pot fi apoi 
dispersate în locaţiile lor originale. Ca un exemplu banal să considerăm 
bucla :: 
DO 1 I=1, N 


1 IRX(1) .NE. OY()=V(1)+X(1) (2.86) 


unde presupunem că numărul elementelor nenule ale lui X este mic. 
Acest cod se poate executa cel mai eficient cu 

VO ,A0, 1 încărcare vector X(I). 

VI, VM VO, N pune indicii valorilor nenule ale lui 

V5 Vi X(I) în VI, Vö şi V6; şi face 1 

V6 V1 elementele corespunzătoare ale lui VM. 

S1 VM pune vectorul mască în S1 

Al PS1 numäră biții 1 din S1 

VL Al introduce lungimea vectorului comprimat în VL (2.8f) 

V2 ,A0, Vi vector gather X(I) ' 

V3 ,A0, V5 vector gather Y(I) 

V4 V2+FV3 Y(I)=X(I)+X(I) cu vectorii comprim ați 

„A0, V6 V4 vector scatter a lui Y(I) în locațiile inițiale din memorie 
Ca şi în cazul anterior, textul trebuie executat cu toate cele N elemente 
ale vectorilor, deşi operaţiile aritmetice (care pot fi substanţiale într-un 
exemplu real) se execută numai cu vectorii comprimaţi. Dacă modul de 
acces la memorie evită conflictele, cele 4 instrucțiuni vectoriale finale din 
(2.8t) se înlănţuie şi se pot executa la viteza vectorială maximă, de un ele- 
ment la fiecare perioadă de ceas. 


2.2.5. Software 


Principala trăsătură specifică nouă a soft-ului calculatorului CRAY 
X- MP în comparaţie cu CRAY-1 o reprezintă rutinele de sistem care fac 
posibilă cooperarea mai multor CPU la rezolvarea unei singure probleme. 
Această posibilitate, denumită multitasking la CRAY X-MP, asigură 
sincronizarea multiplelor CPU. La alte calculatoare asigură condiţiile pen- 
tru asa numita programare paralelă, MIMD sau cu mai multe instrucțiuni 
(sau multiprocesare). CRAY rezervă termenul de multi-tasking pentru 
programarea, paralelă la nivelul subrutinelor, unde unitatea de lucru execu- 
tată de unitatea centrală este subrutina, preferabil mare. O astfel de uni- 
tate se cheamă task. Soft-ul oferă trei posibilităţi de bază : în primul 
rind pentru iniţierea și așteptarea unor taskuri (software TASKS sau 
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fork/join), în al doilea. rînd protejarea secțiunilor critice de cod care tre- 
buie executate numai de un CPU la un moment dat (software LOCKS) 
şi, în al treilea rind sincronizarea secvenţelor de evenimente care intervin 
în taskuri diferite (software EVENTS). Toate posibilitățile pot fi exploa- 
tate prin apeluri la subrutine FORTRAN din biblioteca multitasking 
standard. Ri 

În mod obişnuit un task se defineşte ca o subrutină şi este iniţiat; cu 

CALL TSKSTART (taskid, name, list) 
unde taskid este numele unui masiv întreg cu 3 elemente care identifică; 
task-ul, name este numele subrutinei, iar list este o listă de argumente 
ale subrutinei. Un apel la TSKSTART definește un nou CPU logic care 
are o corespondenţă biunivocă cu taskul şi îl plasează într-o coadă de aştep- 
tare pentru execuţie. În acest mod, numărul de CPU nu este important, 
programele executindu-se fără modificare pe modele cu 1—, 2— sau 4— 
CPU. 

Un program multi-tasking va avea întotdeauna un program de con- 
trol care va face unul sau mai multe CALL la TSKSTART la un punct în 
program unde se poate economisi timp prin atribuirea unor segmente in- 
dependente de program diferitelor CPU. Un astfel de punct în program 
este denumit bifurcatie (fork). 

Posibilitatea asociată este 

CALL TSKWAIT (iaskid) 
care determină programul de control să aștepte pînă ce identificarea 
task-ului taskid s-a încheiat. Dacă acest lucru s-a realizat pentru toate 
task-urile inițiale, s-a produs o joncțiune (join) în program (sau punct de 
sincronizare) care nu poate fi trecut pînă ce nu s-au încheiat toate fluxurile 
paralele de instrucţiuni din task-urile separate. 

Adesea task-urile iniţiate la un fork sînt independente și nu au nevoie 
de comunicaţii cu alte task-uri în cursul execuţiei. Definirea task-urilor 
independente este metoda cea mai clară de programare care conduce la 
programele cele mai clare şi mai uşor de depanat. Aceasta nu este întot- 
deauna posibilă. Un exemplu de task-uri independente este calculul trans- 
formatelor Fourier rapide pe toate cele 32 linii ale unei structuri 32 x32, 
în cursul rezolvării ecuaţiilor diferenţiale parţiale (vezi $5.6.2, ecuaţia 
(5.133). Jumătate din transformate pot fi date fiecărei CPU a unui X- 
MP/2, tără comunicaţii între ele. Este necesar, numai, ca toate transfor- 
matele să se încheie înaintea execuției următoarei etape din algoritm. Pen- 
tru aceasta se execută un CALL la TSKWAIT. 

Prin contrast, task-urile separate create la un fork pot conţine sec- 
ţiuni de cod care pot da răspunsuri greșite dacă sînt executate simultan 
de mai mult de un CPU. Acestea sint secţiuni critice de cod, un exemplu 
fiind actualizarea unei variabile comune. Dacă presupunem că se execută 
două sau mai multe taskuri, fiecare conținînd următorul cod 

COMMON S 

S=S+1 i 
Se intenţionează încrementarea variabilei S cu 1 cînd fiecare task atinge 
această zonă de cod. Dacă CPU2 citeşte Sîn timp ce CPU1 este în cursul 
actualizării lui, dar înaintea memorării noii valori, CPU2 va citi valoarea 
veche în loc de a citi pe cea nouă. Actualizarea efectuată de CPUL se va 
pierde, iar numărul din S-va fi incorect. Singurul mod de a asigura că 
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actualizarea este corectă este prin asigurarea terminării execuţiei instruc- 
ţiunii S=5+1, inclusiv memorarea în S, de către un singur task la un 
moment dat. Acesta este exemplul cel mai simplu al unei secțiuni critice 
de cod care trebuie executată numai de un CPU la un moment dat. Exem- 
ple mai complicate implică segmente substanţiale de cod, dar toate au 
caracteristica citirii și scrierii unei variabile comune. Eşecul identificării 
şi protejării secţiunilor critice de cod este una din erorile de programare 
cele mai frecvente și cele mai greu de detectat, deoarece uneori programul 
poate lucra corect, funcţie de anumiţi parametri ai calculatorului. 

Soit-ul multi-tasking asigură protejarea (blocarea-locks) secțiunilor 
critice de cod, care sint manipulate de următoarele subrutine 

CALI, LOCKASGN (name) 

CALL LOCKON (name) 

CALL LOCKOFF (name) 

CALL LOCKREL (name) 
unde name este o variabilă întreagă și identificînd blocarea. Un lock poate 
avea numai două stări, fie blocat (descris uneori ca „on” sau „,set”!) sau 
neblocai (descris ca „off? , „„reset” sau cleared”). LOCKASGN creează 
situaţia de blocare și o face inactivă (off). LOCKON comută blocarea, 
dacă era inactivă, sau suspendă task-ul dacă era activă. În ultimul caz, 
task-ul rămîne suspendat pină ce blocarea este anulată de alt task. În 
acest moment, toate task-urile în aşteptarea anulării blocării îşi vor con- 
tinua execuţia. LOCKASGN comută blocarea inactivă în mod necondiţio- 
nat, iar LOCK REI, elimină blocarea şi eliberează identiticatorul atribuit 
plecării, care poate fi folosit ulterior pentru alte scopuri. Astfel, blocări 
cu același nume (folosind aceeași cheie) pot fi folosite pentru secțiunile 
critice de cod în task-uri diferite scriind 

LOCKON (name) 

<code: ex. 5=85+1> 

LOCKOFF (name) 
dar este important să ne reamintim că mecanismele funcționează ca şi 
cum există numai o cheie pentru fiecare nume de blocare. Astfel se asi- 
gură ca la un moment dat să se poată executa numai unul din segmentele 
blocate (sau protejate). În general, trebuie minimizate secţiunile de cod 
protejate, deoarece blocările forțează segmentele de cod să se execute 
secvențial, iar CPU vor înceta să lucreze, aşteptind cheia blocării, pier- 
zîndu-se avantajul procesării paralele cu mai multe CPU. 

Un alt motiv de comunicare între task-uri poate fi nevoia de a stabili 
o anumită secvență de evenimente între două task-uri care interacționează. 
Soiît-ul de multi-tasking asigură următoarele primitive de sincronizare : 

CALL EVASGN (name) 

CALL EVWAIT (name) 

CALL EVPOST (name) 

CALL EVCLEAR (name) 

CALL EVREL (name) 
unde name este o variabilă întreagă care se asociază cu apariţia unui eveni- 
ment, EVASGN defineşte existența unui eveniment denumit nume care 
ate două stări posibile : posted (s-a întîmplat) sau cleared (nu s-a întimplat 
încă). EVWAIT verifică starea evenimentului. Dacă nu s-a întîmplat 
încă, programul apelant este suspendat şi aşteaptă consumarea lui, în 
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cealaltă situație programul își continuă execuţia. EVCLEAR șterge eveni- 
mentul consumat şi, deoarece EVWAIT nu modifică starea evenimentului, 
este apelat imediat după EVWAIT. EVREL elimină evenimentul și elibe- 
rează numele variabilei. Prin definiţii corecte ale evenimentelor şi ape- 
luri la EVWAIT şi EVPOST, între două task-uri care interacționează 
se poate forța orice secvență de evenimente. Primitivele LOCKS şi 
EVENTS au facilităţi similare, si în mod evident, se pot simula una pe 
alta. Este cel mai bine de folosit blocările pentru protejarea secţiunilor 
critice şi a evenimentelor pentru sincronizarea lor. 

Aşa cum se subliniază în manualele CRAY, multi-taskingul se reali- 
zează cu un anumit cost. Apelurile subruiinelor TASKS LOCKS și 
EVENTS consumă timp, existind un overhead caracteristic oricărui pro- 
gram executat în regim de multi-tasking şi care nu este prezent în același 
program dacă s-ar executa ca un singur task pe un CPU. Formulat altfel, 
prin multi-tasking nu se reduce numărul ciclurilor CPU necesare unui job 
ci, de fapt se crește prin apelurile la rutinele de multi-tasking. Ce se reali- 
zează este reducerea timpului consumat pentru un job prin partajarea 
ciclurilor CPU între mai multe CPU. În concluzie, multi- taskingul va fi 
util cînd mărimea task-urilor, cunoseută ca granularitatea paralelismu- 
lui, este suficient de mare pentru ca overhead-ul să fie neglijabil. De aceea, 
este important să se reducă numărul apelurilor la biblioteca multi-tasking 
şi să se exploateze paralelismul programului la cel mai înalt nivel posibil 
(de exemplu, între instanţe diferite ale buclelor exterioare ale programului). 
Pentru a permite efectuarea unei analize cantitative, s-a măsurat over- 
head-ul asociat cu fiecare din cele trei metode de sincronizare, rezulta- 
tele urmind să fie prezentate în secţiunea următoare. 


2.2.6. Performanța 


În prima ediţie a cărţii Parallel Computer (Hockney și Jesshope 1981) 
s-a discutat pe larg performanța calculatorului CRAY-1 original. În 
continuare prezentăm măsurătorile efectuate pe un CRAY X-MP/22 cu 
două CPU pentru parametrii Too; Bay Și 832 (vezi $1.3.3 si $1.3.6 și Hockney 
1 985)). Prezentăm întii măsurătorile lui ræ şi nı; peun singur CPU şi, 
apoi, overhead-ul, sp, de sincronizare a 2 CPU prin diverse metode. 
Fig. 2.7 arată rezultatul execuţiei echivalentului codului . (1.5) pentru 
operaţii diadice şi două tipuri de operaţii triadice. Pentru fiecare lungime a 
vectorului, N, din programul (1.5), s-a repetat măsurătoarea de 100 ori, 
iar valoarea minimă s-a reprezentat în figura 2.7. Rezultatul se obţine în 
modul standard prin trasarea liniei drepte celei mai bune și înregistrarea 
inversului pantei ca ra, iar intersecţia negativă cu axa n ca hp. Tabelul 
2.1 rezumă rezultatele. l 

Primele trei cazuri sint măsurători pentru instrucțiuni vectoriale. 
Cazul diadic foloseşte un singur pipeline vectorial cu toți vectorii în memo- 
ria principală și poate fi comparat cu valorile ra = 22 Mflop/s şi n2 =18 
obținute anterior pe CRAY-1 (Hockney și Jesshope 1981). ro este de trei 
ori mai mare datorită, in primul rînd, existenței celor trei porturi la memorie 
pe care le are CRAY X-MP, în comparație cu unul la CRAY-1. Timpul de 
iniţializare în microsecunde, to = n,p|ro nu s-a modificat semnificativ : 
complexitatea suplimentară a accesului la memorie de la XM—P fiind 


124 


compensată de reducerea perioadei ceasului. Totuşi, importanţa acestui 
overhead, măsurat de n,p, este de trei ori mai mare la X— MP, deoarece 
s-ar fi putut executa în acel interval de timp de trei ori mai multe 
operaţii aritmetice decît la CRAY—1. Rata maximă la care poate fur- 
niza rezultate o unitate pipeline în virgulă mobilă este de un rezultat 
la fiecare perioadă de ceas de 9,5 ns adică 105 Mflop/s. Valoarea mă- 
surată ra = 70 Mflop/s este mai mică datorită timpului necesar pentru 
încărcarea registrelor vectoriale păstrează 64 elemente, overhead-ul este 
adunat la fiecare 64 elemente, unde devine perceptibil (fig. 2.7). 

Următoarele două cazuri sint măsurători pentru operatii vectoriale 
şi utilizarea simultană a unităţilor pipeline de înmulţire şi adunare în 
virgulă mobilă. În cel mai rău caz ne putem aştepta la o dublare a va- 
lorii lui ro, care se realizează dacă un operand este un scalar, dar nu se 
atinge în toate cazurile vectoriale. Valorile lui n, 2 nu se modifică ; timpul 
de inițializare se înjumătăţeşte deoarece două instrucţiuni împart un 
singur timp de iniţializare de 0,8 microsecunde. 

Am executat un program de test diadic cu instrucțiuni scalare şi am 
obţinut ra = IMElop/s şi Napp = 4. Timpul de iniţializare tọ rămîne de 0.8 
microsecunde dar acum este de importanţă neglijabilă deoarece viteza de 
execuţie a operaţiilor aritmetice este de 20 ori mai mică. 

S-au folosit; 4 metode de sincronizare a operării celor două CPU ale 
unui calculator CRAY X-MP pentru un singur job. Toate programele 
folosite sînt date în lucrarea lui Hockney (19853). Ele constau în folosirea 
primitivelor TSKSTART si TSKWAIT,—metodă pe care o vom numi 
TASKS, a primitivelor LOCKON şi LOCKOFF — metodă pe care o vom 
numi LOCKS, a primitivelor EVPOST şi EVWAIT — metodă pe care o 
denumim EVENT și în sfîrşit, a metodei LOCKS simplificată scrisă în cod 
CAL. În toate cazurile programele au fost executate în modul stand-alone, 
iar evaluarea timpului de execuţie s-a realizat cu funcția RTC (DUM), 
de ceas în timp real. Ne-am asigurat în acest mod că a doua unitate cen- 
trală fizică este atribuită celei de-a doua unităţi logice CPU și că măsurăm 
timpul de execuţie a întregului job. În cazul metodei TASKS (fig. 2.8), 
după apelul ceasului de timp real la începutul măsurătorii (T1), instrucțiu- 
nea de apel a TSKSTART furnizează celei de-a doua CPU o copie æ 
subrutinei DOALL, pe care aceasta; începe să o execute. Primul CPU, 
care interpretează programul de control MULTI, va executa o altă copie 
a subrutinei DOALI,, prin apelul CALL DOALL. Apelul lui TSKWAIT 
are rolul de a asigura că ambele CPU au încheiat partea lor din job 
înaintea apelului ceasului pentru înregistrarea sfirşitului măsurătorii 
(T2). Parametrii lui DOALL sînt folosiți pentru a asigura că cele două 
CPU execută operaţii elementare diferite (fiecare N/2) din totalul de M. 
La această metodă overhead-ul necesar lansării unui nou task intervine 
la fiecare bifureaţie (fork) dintr-un segment de program care este împărțit 
între 2 CPU și de aceea este inclus în măsurători. 

Timpul măsurat respectă formula 


t = 45 + 3,2 8/400 us 


care conduce la valorile lui To Şi nı; din tabelul 2.2. Următoarea metodă 
de sincronizare mai ieftină este LOCKS. În acest caz observăm (tabelul 
2.2) CĂ S1; = 4000, este aproximativ 2/3 din valoarea găsită la metoda 
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THE CRAY X-MP AND CRAY-2 


PROGRAM NULTI 

COMMON /GLOBAL/A(409), B(u90), CCUAS - 
DIMENSIÓN LDT( 2) 

EXTERNAL DOALL 

DATA B/u00k1.0/, C/400%1.0/ 


NMAX = 400 
IDf(1) = 2 


TI 
T? 
TA 


9, SE-9kRTC( DUN) 
9, 5E-9*:RTC( DUM) 
T2-T1 


5 
DO 20 M = 2, NMAX, 2 
Ti = 9.,SE-9kRTC(DUM) 


HALF. = t/2, 
NHI = NHALF + 


CALL TSKSTART (IDT, DOALL, NH1, N) 
CALL DOALL (1, MHALF) 
CALL TSKWAIT (IDT) 


T2? = 9,5E-9*PTC( DUMA 


T = T2-T1-TØ 
WRITE (6, 109) N, T 
20 CONTINUE 


100 FORMAT (îti: ', Lu, UX, 'TIME IN SECONDS:' F16.12) 
STOP 
END 


SUBROUTINE DÇALL (N1, tz) 
COMMON/GCLOBALZ/A(UØØ), BCA), C(uac) 


DO lg I = N1, N2 
10 A(I) = B(ID*C(I) 

RETURN 

END 


Fig. 2.8 Program pentru măsurarea lui ræ și Sy/3 cind un job este împărţit celor 
două unităţi centrale ale lui CRAY X—MP/22, prin metoda de sincronizare, 
TASKS. 


TASKS. Pe de altă parte, metoda EVENTS este de 2 ori mai puţin 
costisitoare decit; metoda LOCKS, cu sı; = 2000. Pentru a afla overhead-ul 
cel mai mic, John Larson de la Cray Research Inc a programat în CAL o 
formă simplificată a metodei LOCKS. Overhead-ul se reduce de 10 ori 
la Sı; = 220. O analiză a codului CAL arată că nu există timp pierdut și 
că este improbabil ca la CRAY X-MP să se obțină o sincronizare cu mai 
puţin overhead. Trebuie spus că în cadrul codului CAL, un CPU aşteaptă 
ca celălalt să-şi încheie activitatea prin testarea continuă a unui registru 
de sincronizare. Astfel se evită situația ca unitatea centrală aflată în 
așteptare să execute altă activitate în acest interval de timp, de aceea această 
metodă poate fi cu greu acceptată ca o metodă generală de sincronizare. 


Tabelul 2.2 Valori măsurate pentru roo şi S1/2 cind operaţiile diadice cu operanzi în memorie sînt 

împărţite între două CPU ale unui CRA Y-X-A!P22, Overhend-ul se măsoară separat cu TASS, 

LOCKS, EVENTS şi cod CAL pentru sincronizare. Overhead-ul de sincronizare este tọ = S1/2/roo 
în microsecunde. 


xi 
Too S7/2 to r = to 
iig | „(Mflop/s) (flop) | (us) (k/s) 
TASK ; 130 5700 45 : 22 
LOCKS 140 4000 28 36 
EVENTS 140 2000 14 71 
LOCKS simplificată 110 220 2 500 


cod CAL 


Notă: rezultatele sînt rotunjite în mod deliberat la 2 cifre. Precizie mai marc ar sugera-o 
o acrurateţe mai bună. 


2.2.7. CRA Y-2 și CRA Y-3 


Fig. 2.9 este o imagine impresionantă a calculatorului CRAY-2 și 
a rezervorului pentru agentul de răcire (CRAY 1985). Calculatorul aflat 
în primul plan, care cìntăreşte aproape 3 tone, conţine un procesot fron- 
tal, 4 procesoare secundare, o memorie comună de 256 Megacuvinte şi 
toate sursele de alimentare și firele de legătură. Carcasa este un cabinet 
cilindric de 1,2 m înălțime şi 1,4 m în diametru. Comprimarea dimensiuni- 
lor este remarcabilä, de fapt un CRAY X-MP cu 4 CPU plus sistemul de 
I/E şi dispozitivul solid state care se află într-un singur container ocupă 
o treime sau un sfert din volumul actual. Puterea generată de 195 KW 
diferă puţin faţă de cea de la CRAY X-MP, dar pentru eliminarea ei se 
foloseşte o tehnologie complet nouă de răcire — răcire prin scufundare în 
lichid. Toate plăcile cú circuite și sursele de alimentare sint complet scu- 
fundate într-o baie de lichid fluorocarbon care este deplasat lent (a:proxima- 
tiv 1 inch pe secundă) şi trecut printr-un sistem de schimbare a căldurii. 
Răcirea este foarte eficientă deoarece agentul de răcire, care are o constantă 
dielectrică mare şi proprietăți bune de izolare este în contact direct cu 
plăcile cu circuite şi capsulele propriu-zise. Fig. 2.10 este o imagine mai 
clară a circulaţiei lichidului de răcire peste plăci. Sistemul de răcire se 
află în apropierea sistemului ; coloanele din planul secund al fig. 2.9 re- 
prezintă rezervorul pentru cele 200 galoane de lichid. Dacă trebuie înlocuită 
o placă, trebuie pompat în rezervor tot lichidul de răcire. Această oper aţie 
se execută în citeva minute. 
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Fig. 2.9 O imagine de ansamblu a calculatorului CRAY-2, Fig. 2.10 Tehnologia de răcire prin imersiune totală a calculatorului 
cu rezervorul cu lichidul de răcire în plun îndepărtat, CRA'Y-3. Toate plăcile cu circuite și firele de conectare se află într-o 
baie de fluorocarbon. (Fotografie pusă la dispoziţie de Cray 

Research Inc.) 


Perioada ceasului este la CRAY-2 de 4,1 ns, ceea ce impune folosirea 
unor fire de legătură scurte. Din acest motiv s-au proiectat modulele cu 
conexiuni după trei dimensiuni, fiecare fiind format din opt plăci cu cir- 
cuite fixate rigid. Fiecare modul (vezi fig. 2.11) formează un masiv de 
8x8x12 capsule de circuite integrate. Modulul măsoară aproximativ 
1x4x8 inci şi consumă între 300 şi 500 W. Cele 320 module sînt mon- 
tate în 14 coloane care formează un arc de 300°. Sint 152 module pentru 
CPU și 128 module pentru memorie, cu aproximativ 240000 circuite, din 
care aproape 75000 sînt de memorie. Circuitele logice folosesc masive de 
16 porţi, ea la CRAY X-MP. Ca și la alte calculatoare CRAY, se folo- 
sesc perechi de fire răsucite cu lungime între 2 inci şi 25 inci. Sînt folosite 
aproximativ 36000 conexiuni cu o lungime totală de aproximativ 6 mile. 


2.11 Un modul CRAY-2, format din 8 p 
furnizată de Cray Research Inc.) 


Arhitectura generală a calculatorului CRAY-2 este prezentată în 
fig. 2.12 și poate fi descrisă ca formată din 4 procesoare secundare care 
accesează o memorie comună partajată, sub controlul unui procesor prin- 
cipal. Memoria comună de 256 M cuvinte de 64 biţi este adresabilă direct 
de toate procesoarele (se folosesc adrese pe 32 biţi). Este organizată ca 4 
sferturi de 32 blocuri, realizindu-se 128 blocuri cu 2 Megacuvinte pe bloc. 
Se foloseşte tehnologia MOS dinamică (256 kbiţi pe capsulă), ceea ce în- 
seamnă că timpul de acces (aproximativ 250 ns) este foarte mare în com- 
paraţie cu memoria ECL principală de la CRAY X-MP (38 ns). În acest 
sens, este mai corect să se compare memoria comună cu memoria solid 
state de la X-MP. Fiecare bloc de memorie are o cale de date funcțio- 
nală independentă la fiecare din cele 4 porturi bidirecționale de memorie, 
fiecare realizind legătura cu un procesor secundar şi un canal de comunicaţie. 
Lăvgimea de bandă totală la memorie este de 1G cuvinte/s. 

Accesul la memorie se face în fază (phased), adică fiecare procesor 
poate avea acces la un anumit; sfert numai la fiecare 4 perioade, corespunză- 
tor fazei sale. Există £ faze, cîte una pentru fiecare procesor secundar. 
Cele 32 blocuri de memorie dintr-un sfert partajează o cale de date la 
fiecare port de memorie comună; totuși, datorită modului de acces în 
fază, numai un bloc accesează calea în decursul a 4 perioade de ceas, Fie- 
care bloc are deci, funcţional, o cale independentă la fiecare din cele 4 
porturi. Cei mai puţini semnificativi 2 biţi ai adresei de memorie selectează 
sfertul, următorii 5 unul din cele 32 blocuri şi cei 25 care rămîn specifică, 
cuvintul din bloc (bineînţeles, acum sînt necesari numai 21 biţi pentru a 
adresa un bloe de 2 Mcuvinte). Astfel, elementele unui vector, memorate 


(Fotografie 


9—c. 702 
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continuu sint răspîndite în primul rind în sferturi, apoi în blocuri şi, în 
sfirşit, în cuvintele unui bloc. . ; 
Dacă referințele la elemente succesive ale unui vector au loc în fiecare 
perioadă de ceas, atunci un anumit sfert va fi referit la fiecare 4 perioade 
de ceas, iar un anumit bloc la fiecare 128 perioade de ceas (512 ns). Tim- 
pul de acces la memorie de 250 ns asigură evitarea conflictelor de acces la 
bloc în cazul ideal al referirii unui vector memorat continuu. Conflictele 
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Fig, 2.12. Diagrama bloc a unui calculator CRAY-2 cu patru CPU. 


vor apare dacă, diferența între adresele elementelor succesive este 4 sau o 
putere mai mare a lui 2. În cazul cel mai defavorabil, cînd toate elementele 
sînt memorate în același bloc, rata de acces la memorie este de numai 
1/64 din maximul atins pentru vectori continui. În consecință, performanţa 
calculatorului CRAY-2 depinde. în mod critic de modul de dcces la memoria 
comună şi poate varia în limite largi pentru job-uri diferite sau implemen- 
tări diferite ale aceluiaşi program. 
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Procesorul principal supervizează procesoarele secundare, memoria 
comună și controlerele de periferice prin 4 canale de comunicaţie de 4 
Gbit/s. Fiecare canal este un inel pe 16 biţi ce conectează un procesor 
secundar la pină la 9 controlere de disc, o interfaţă front-end, un port al 
memoriei comune şi procesorul principal. Inelul transferă un pachet de 
16 biţi între staţii la fiecare perioadă de ceas. Procesorul principal este un 
calculator care lucrează cu întregi pe 32 biţi, şi are o memorie locală de 
date de + Kcuvinte (32 biţi) şi o memorie pentru instrucţiuni de 32 KB. 

Arhitectura unui procesor secundar, prezentată în fig. 2.13, poate fi 
descrisă ca o arhitectură ORAY-1 cu registrele intermediare B şi T înlo- 
cuite de o memorie locală de 16 Kw. Există, ca şi la CRAY-I, o singură 
cale bidirecţională de date la memoria comună, 8 registre vectoriale a 64 
cuvinte şi 8 registre scalare a 64 biţi. Cele 8 registre de adresă au cite 32 
biţi dar nu mai există o cale directă între memoria comună şi registrele 
de acie-i, Şi unităţile funcţionale sînt aranjate într-un mod diferit, iar 
numătul lor a fost redus la 9. Nu există unitate de aproximare a inversului 
în virgulă mobilă separată. Această funcţie se execută acum în unitatea de 
înmutțire în virgulă mobilă, care execută și funcţia nouă hardware de ex- 
tragere a rădăcinii. Deplasarea vectorială, numărarea biţilor şi operațiile 
cu numere întregi se execută în aceeași unitate vectorială ; adunarea sca- 
larilor întregi și numărarea biţilor se execută în unitatea scalară întreagă. 
Exceplind faptul că sint unităţi pe 32 biţi, unităţile funcţionale de adrese 
sint aceleași ca la CRAY-1. Memoria locală de 16 Kw are timpul de acces 
de 4 perioade de ceas și are rolul de a memora temporar scalarii şi segmente 
de vectori în cursul calculelor. Viteza acestei memorii principale relative 
la unităţile funcţionale este aceeaşi cu a memoriei de la CRAY X-MP, 
care este, bineînțeles, mult mai mare (pînă la 8 Mw). 

Fiecare procesor secundar are propriul ceas de timp real pe 64 biţi 
care avansează la fiecare perioadă de ceas şi este sincronizat iniţial cu 
ceasurile celorlalte procesoare secundare. Există un numărător pe 32 biţi 
pentru adresa programului, iar o bază de 32 biţi plus registre limită asi- 
gură protecţia domeniului de memorie comună. 8 semafoare de 1 bit şi un 
registru de stare pe 32 biţi controlează accesul la zonele de memorie co- 
mună şi sincronizarea procesoarelor secundare. 8 bufere pentru instrucțiuni 
păstrează 64 instrucţiuni de 16 biţi, iar o instrucțiune este lansată în 
executie la fiecare perioadă de ceas. Cele 128 coduri de instrucţiuni includ 
posibilități de dispersare/grupare, ca la CRAY X-MP/4 ; totuşi, posibilita- 
tea înlănţuirii unei succesiuni de instrucțiuni vectoriale, care este o pro- 
prietate importantă la CRAY-1 şi X-MP, nu este disponibilă la CRAY-2. 

Sistemul de operare al calculatorului CRAY-1 se bazează pe sistemul 
AT şi T Unix, care a devenit un standard industrial (Ritchie şi Thompson 
1974, Bourne 1982). El posedă facilităţile Unix standard şi un compilator 
C. Un nou compilator FORTRAN optimizat (MET) şi un asamblor CAL-2 
insoţesce posibilitatea. de conversie în cod asamblor de la CRAY-1 la 
CRAY-2. La Unix s-au introdus extensii pentru a creşte performanța 
de I/E, posibilităţile de multiprocesare şi conectare în rețea. 

Performanţa maximă a unui procesor secundar este de două rezultate 
in virgulă mobilă la fiecare perioadă de ceas, adică 500 Milop/s pentru 
un calculator cu 4 CPU. Aceste valori s-ar obţine dacă argumentele şi 
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rezultatele s-ar afla, în registre şi memorie locală (operaţie registru la re- 
gistru) şi pot fi obţinute pentru probleme favorabile ca înmulţirea matrice- 
lor, pentru care s-a raportat; 430 Mflop/s. Vitezele obținute pentru job-uri 
FORTRAN medii, care ar utiliza memoria comună lentă, vor depinde în 
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Fig. 2.13 Diagrama bloc a unui calculator CRAY-2 cu un CPU. 


mare măsură de eficiența cu care compilatorul buferizează transferurile 
și de numărul mediu de operaţii aritmetice executate pentru o referință 
la memorie. Valorile obţinute pentru testul (ro, N2), (vezi $1.3.3), pot 
fi mai elocvente privind performanţa unor job-uri FORTRAN medii care 
lucrează cu memoria comună. 

Tabelul 2.3 prezintă rezultatele execuţiei testului (ra, D1/2 pe CRAY-2, 
pentru o diversitate de programe simple, cu folosirea primului compilator 
CIVIC (1985) şi a unui compilator îmbunătăţit, CFT77 (1.3) care a apărut 
doi ani mai tirziu. (La aceste teste, toate datele de intrare și rezultatele 
se păstrează în memoria comună, memoria locală de 16 Kw nefiind folo- 
sită. Se execută puține operaţii aritmetice pentru o referință la memorie 
(Í < 2), astfel că performanța este determinată în primul rînd de viteza 
memoriei comune, și nu de cea a unităţilor pipeline aritmetice. De aceea, 
valorile măsurate ale lui r reprezintă o evaluare a situaţiei celei mai defa- 
vorabile, care poate apare ca urmare a execuţiei unui cod FORTRAN 
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care a nu fost optimizat pentru folosirea memoriei locale, prin directive 
către compilator. Dacă aceleași bucle s-ar executa cu date de intrare şi 
rezultate memorate în registre vectoriale, performanţa va tinde spre cea 
maximă a unei singure unităţi aritmetice pipeline (7). Această coloană 
ar reprezenta, deci, cel mai bun caz posibil. 

Primele 5 programe sint vectorizate de compilator şi se caracterizează- 


prin creşterea performanței odată cu creşterea lui f, asa cum ne aştep- 
tăm la un calcul cu spațiu de memorie limitat. Următoarele două programe 
nu sînt vectorizate și performanța este specifică codului scalar. Ultimele 
două execută numai deplasări de date. Transpunerea. are o performanţă 
similară unei operaţii scalare. Operaţiile de dispereare/grupare sînt im- 
plementate destul de eficient, ele executindu-se la o rată apropiată de 
vitezele vectoriale. Rezultatele mai arată o degradare severă a performan- 
tei cind se folosesc vectori ne-continui (cu o diferență, între adresele ele- 
mentelor succesive de 8). Raportul mare dintre rata teoretică maximă fo 
şi cea măsurată, ro, confirmă afirmația că performanța calculatorului 
CRAY-2 depinde în mod critic de modul de programare a problemelor, 
în particular de minimizarea referințelor și maximizarea utilizării memoriei 
locale pentru rezultatele intermediare. 

Tabel -2.3 Rezultate ale testului (Too; N;/2) pentru o serie de programe executate de o unitate cen- 


trală a calenlatoruini CRA Y-2, folosind cod FORTRAN şi compilatorul CIVIC (1985), Valorile 
mai bune din paranteze sint pentru CFT77 (1.3), Noiembrie 1987. 


Operația : instrucţiunea 10 în T Too 
codul (1.5) Pas pas (flops) | (AItlop/5) | N/a 

Diadă 1 244 32(56) E 53(83) 
AU) = B(1)* CO) 8 244 9(10) 10(0,5) 
f= 1/3 
Triade vectoriale 1 488 54(65) 31(28) 
AC) = B() + CU) + DU) 3 488 14(17) 7(2,5) 
{= 1/2 
V aa cu 4 op. 1 488 73(100) 33(33) 
A(D = BI) + CI)+DO)+E() 

+ FI) 
1 = 23 
înmulțirea matricelor 1 488 75(72) 75(79) 
Produs intermediar ($ 5.3. 2) 
î=2 
Produs interior 1 488 73(119) 283(236) 
S = S + B(I) + C(I) 
f=1 
Recurenţă de prim ordin 1 3,1(12) 4,1(15) 
A(D = B()= A(I—1)+D(1) 
f = 1/2 
Atribuirea sarcinii 1 244 1,4(2,8) 2,6(10) 
AGO) = AO) + S 
t= 
Tan die i 1 — 2,1(3,4) 1,6(6,2) 
Distribuire aleatoare ; grupare — — 19(29) 26(45) 


AUU) = BO); A() = BU()) 
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niţializare în microsecunde, ty = Nuge/roo nu s-a modificat semnificativ : 
complexitatea suplimentară à accesului la memorie de la X-MP fiind 
compensată de reducerea perioadei ceasului. Totuşi, importanţa acestui 
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Fig. 2.7 Măsurători ale iui ræ Și ny; pe un CPU 
al unui calculator CRAY (X—MP/22. Timpul t, ca 
funcţie de lungimea vectorului, n, pentru o sin- 
gură operație vectorială. (a) Operații diadice A = 
= B x C. (b) Toate operațiile vectoriale triadice 
A=DxB +C)c. CYBER 205, triada, A = sB + 
+ C. Toţi vectorii sint obținuți din și returnaiți în 
memoria comună, (Figură furnizată de North Hol- 
land, din Parallel Computing). 


overhead, măsurat de n, este 
de trei ori mai mare la X-MP, 
deoarece s-ar fi putut executa în 
acel interval de timp de trei ori 
mai multe operaţii aritmetice 
decît la CRAY-1. Rata maximă 
la care poate furniza rezultate o 
unitate pipeline în virgulă mo- 
bilă este de un rezultat; la fiecare 
perioadă de ceas de 9.5 ns, adică 
105 Mflop/s. Valoarea măsurată, 
Ta = 70 Milop/s este mai mică 
datorită timpului necesar pentru 
incărearea, registrelor vectoriale 
cu date din memoria principală, 
Deoarece registrele vectoriale 
păstrează 64 elemente, over- 
head-ul este adunat la fiecare 
64 elemente, unde devine per- 
ceptibil (fig. 2.7). 

Următoarele două cazuri 
sint măsurători pentru operaţii 
vectoriale triadice, care implică 
înlănțmirea a două instrucțiuni 
vectoriale şi utilizarea simultană 
a unităţilor pipeline de înmulţire 
și adunare în virgulă mobilă. În 
cel mai bun caz ne putem aştepta 


la o dublare a valorii lui ræ, 
care se realizează dacă un operand este un scalar, dar nu se atinge în toate 
cazurile vectoriale. Valoarea lui n, nu se modifică; timpul de inițiali- 
zare se înjumătăţeşte deoarece două instrucțiuni împart un singur timp 
de iniațializare de 0.8 microsecunde. i 
Tabelul 2,1 Măsurători ale valorilor lui ro% și n în cazul unui CRAY X-MP cu un CIU care 


execută operaţii eu operanzi din memorie, Îu paranteze sint valorile corespunzătoare Iui 
CRAY-L. Timpul de iniţializare este tọ = N1/2/roo 


A(D = BU) x CU) 


Gei E E Too niz t 
Operaţie : instrucțiunea 10 din codul (1.5) | QArop /s) (lop) | tus) 
Diada | 70 | 53 | 0,75 
A(D = B(1)x € (1) 
(valori CRAY-1) 02) | a | 0.82 
Triade vectoriale 107 | 45 „42 
A(D= DÉI) x B(1)+ C(1) | 
Triadă CYBER 205 148 | 60 4 
Cod scalar 5“ | 4 0,80 
l 
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CR AY-3 este o implementare a calculatorului CRAY-2 în tehnologie 
cu arseniură de galiu (Ga As) care ar permite o perioadă a ceasului de 1 ns. 
Capsuleie sint produse de Gigabit Logic Ine., California (Alexander 1985) 
şi Harris Microwave (Me Crone 1985). Probabil CRAY-3 va avea mai multe 
procesoare, de la 8 la 16, şi o memorie comună de 1 Gw. Este planificat 
pentru 1988/9. 


2.3. CDC CYBER 205 şi ETA” 


CYBER 205 este produs-de Control Data Corporation la Saint Paul, 
Minnesota, SUA. Mașina a fost anunţată în 1980, iar prima livrare la un 
utilizator s-a realizat la Oficiul meteorologie din Bracknell, Marea Britanie 
în 1981. Pină în anul 1985 au fost instalate aproximativ 27 CYBER 205. 
CYBER 205 reprezintă punctul culminant al unui program lung de cerce- 
iare şi dezvoltare, care a început .cu proiectarea și livrarea calculatorului 
CDC STAR 100 în perioada 1965—1975 (vezi $I.1.3). Neil Lincoln, şeful 
echipei de proiectare prezintă tehnologia și compromisurile efectuate în 
cursul creerii acestui calculator (1982). Alte detalii se pot afla în CDC 
CYBER 200 Model 205 Computer System Hardware Reference Manual 
(CDC 1983). În 1983 s-a lansat CYBER 205, seria 600, la care s-a înlocuit 
memoria principală bipolară de 4 Mw a calculatorului iniţial (denumit, 
acum seria 400) cu o memorie MOS statică de 16 Mw. În continuare se 
descriu ambele maşini. Deoarece ele diferă numai prin tehnologia și în- 
capsularea memoriei, vom descrie în continuare mașina seria 400 cu 
4Mw şi 2 unităţi pipeline și vom sublinia, cînd este cazul, diferentele faţă 
de seria 600. Arhitectura CYBER 205 este importeniă deoarece este adop- 
tată şi de următoarea generație de supercalculatoare. Calculatorul ETAY 
care a apărut în 1986 poate fi definit ca 8 calculatoare CYBER 205 care 
lucrează cu o memorje ccn:ună mare. EL este descris în $2.3.7, 


2341, Struetura fizică 


In fig. 2.14 și 2.15 apare o fotografie a calculatorului CYBER 205 și 
o diagramă bloc a diferitelor părţi ale mașinii. Fotografia, luată din partea 
stingă sus, este a unei mașini cu 2 unități pipeline. Memoria principală, 
este formată din 4 sau 8 secțiuni. La scria 460 memoria se află în 2? sau 4 
cabinete, fiecare conținînd 2 secţiuni a 1 miiicn cuvinte de 6: biţi. 
Secţiunea scalară care conține unitatea de prelucrare a instrucțiunilor 
formează. partea centrală a maşinii. La un capăt se află memoria, conectată, 
printr-o unitate de interfațare, iar la celălalt procesorul vectorial. Acesta, 
conține una, două sau 4 unităţi aritmetice pipeline în virgulă mobilă, gi 
secţiunea de I/E și reparare. Un calculator cu 4 Mw ocupă 7,imx7 m. 
Răcirea calculatorului central cu 1 Mw de memorie se realizează cu 2 
unităţi cu apă de 30t, iar energia este furnizată de un generator de 250 
RV. Se disipă aproximativ 118 KW., Mai sînt necegare un generator su- 
plimentar de 80 KVA gi un sistem de răcire de 90t pentru sistemul de 
memorie de 4 Mw. De asemenea, se asigură un generator de 250 KVA 
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Fig. 2.14 Imagine a calculator Ini CDC CYBER (Fotografie pusă la 
dispoziţie dë Control Data Corporation.) 
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Fig. 2.15 Diagrama bloc a diferitelor unități ale calculatorului CDC CYBER 205, seria 
400. Seria 600 diferă numai la secțiunea de memorie, care este mai mică şi este 
dreptunghiulară in plan. (Fotografie furnizată de Control Data Corporation.) 
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pentru situații de urgenţă .CYBER 205 este proiectat să fie conectat la 
un sistem front-end, de obicei un CYBER 180, CDC 6000, IBM sau VAX. 

Seria, 600 diferă faţă de descrierea anterioară numai prin cabinetele 
pentru memorie care se situează la capătul secțiunilor J şi K, formînd 
impreună un plan rectangular. Există tot 4 sau 8 secțiuni de memorie, 
care conține fiecare 0,5,1, 1,5 sau 2 Mw fiecare, realizind configuraţiile 
de 1, 2, 4, 8, 12 sau 16 Mw memorie. 


2.3.2. Arhitectura 


Unităţile componente şi căile de date ale calculatorului CYBER 205 
sint prezentate în fig. 2.16. Memoria este formatădin 8 sectiuni (A la H) 
fiecare împărţită în 8 stive (denumite module de memorie la seria 600). 
Fiecare stivă (sau modul) este împărţită în 8 blocuri de memorie și are o 
cale independentă pe 32 biţi la unitatea de interfaţare a memoriei. Fiecare 
bloc conţine 16 K jumătăţi de cuvinte de 39 biţi la seria 400 (32 biţi pentru 
date plus 7 biţi SECDED). La seria 600, un bloc poate conţine 16K, 32K, 
48K sau 64K jumătăţi de cuvinte, funcţie de numărul de socluri montate 
pe placă (vezi $2.3.3). , 

Memoria este organizată în perechi de secțiuni (A/H, B/G, C/F; D/E) 
fiecare avînd 16 stive și o cale de date de 512 biți la unitatea de inter- 
fațare. Această mărime a datei este cunoscută ca supercuvint sau sword. 
Este echivalent cu 8 cuvinte de 64 biți sau 16 jumătăţi de cuvinte a 32 
biți şi reprezintă unitatea de acces la memorie pentru vectori. Adresele 
succesive ale unui sword sint memorate in stive diferite, oferind posibili- 
tatea accesului în paralel prin extragerea unei jumătăţi de cuvint de la 
fiecare stivă din cele 16 ale unui sistem cu 2 secțiuni de memorie. Timpul 
de acces la memorie éste de 80 ns. Dacă se execută referinţe succesive, 
din tiecare secțiune dublă sc poate accesa un nou sword la fiecare perioadă 
de ceas de 20 ns. Se obține, in acest caz o lărgime a benzii 400 Mwys, 
pentru o secţiune dublă de memorie. Totuşi unitatea de interfaţare a 
memoriei nu foloseşte pe deplin această pusibilitate (vezi în continuare). 

Deşi memoria poate îi adresată la nivel de bit, bait (8 biţi), jumătate 
de cuvînt (32 biți) sau cuvînt (64 biţi), accesul la memorie se realizează pe 
sword (512 biţi) pentru vectori, în celelalte situaţii pe cuvint sau jumătate 
de cuvînt. Unitatea de interfațare a memoriei organizează cererile la memo- 
rie în cursul fiecărui interval de 20 ns în sw ord, cuvinte sau jumătăţi de 
cuvinte, apoi livrează sau asamblează datele prin căi de 128 biţi, unităţilor 
scalare sau vectoriale. Comunicaţia cu restul calculatorului se realizează, 
prin 3 căi pentru citire şi două pentru scriere, unitatea de interfaţare avînd 
un bufer cu capacitatea de 1 sword pentru fiecare cale (R1, R2, R3 pen- 
tru citire şi W1, W2 pentru scriere). Unitatea de interfaţare se conectează 
la secțiunile scalară, vectorială sau de I/E prin 10 căi de date de 128 biţi, 
fiecare cu o 1ată de transter maximă de 128 biţi la fiecare perioadă, de ceas, 
obținîndu-se o viteză de transfer maximă de 1000 Mw/s. 


La o maşină cu 2 unităţi pipeline, unitatea de interfațare a memoriei 
operează aşa cum s-a prezentat mai sus, cu o viteză maximă de citire de 
un sword sau 8 cuvinte pe o perioadă de ceas. Cum fiecare pipe necesită 
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Fig. 2.16 Diagrama bloc care prezintă principalele unități şi căi de date ale calculatorului CDC CYBER 205, seria 400, 
Seria 600 are memoria mărită ja 16Mw. 


două noi argumente de intrare la fiecare perioadă de ceas, capacitatea 
căilor de date şi a interfeţei tocmai satisfac aceste condiţii ale unităţilor 
aritmetice pipeline. O maşină cu 4 unităţi are nevoie de un număr dublu 
de date într-o perioadă de ceas, de aceea buierele RI, R2 şi W1 au capa- 
citatea mărită la 1024 biţi, iar căile de date la unităţile vectoriale sint de 
256 biţi. Unitatea de interfaţare execută referinţe simultane la un dublu 
sword (1024 biţi), prin accesarea simultană a unei jumătăţi de cuvint. 
din 32 stive răspindite în 4 secţiuni de memorie. Evident nu se utilizează 
întreaga capacitate de comunicație a memoriei, care poate furniza, o jumă- 
tate de cuvint simultan de la fiecare din cele 64 stive (8 stive în fiecare 
din cele 8 secţiuni de memorie). 

Secţiunea scalară citește din buferele R1 gi R3 şi scrie în buferul 
1V1. Toată căile de date la secţiunea vectorială traversează secţiunea. sea- 
lară unde se realizează verificarea SECDED şi determinarea priorităților 
cererilor la memorie. Includerea verificării SECDED extinde considerabil 
timpul mediu de funcţionare între defectări ale sistemului. Secţiunea 
scalară conţine unitatea pipeline de lansare în execuţie a instrucțiunilor 
care au o cadență maximă de 1 instrucțiune la fiecare 20 ns (=). Instrucţiu- 
nile cu 3 adrese sînt extrase dintr-o stivă care poate înregistra pină la 
128 de instrucţiuni pe 32 biţi sau 64 instrucţiuni pe 64 biţi, sau combinaţii 
cu lungimea totală echivalentă. Atit instrucţiunile vectoriale, cît și scalare 
sint decodificate în unitatea pipeline de lansare în execuţie, care trimite 
instrucţiunile vectorilor decodificate unităţii vectoriale pentru execuţie. 
Trimiterea instrucţiunilor scalare decodificate unităților scalare aritme- 
tice este controlată de un sistem de rezervare, principalele condiţii fiind : 

(1) conflictul operandului sursă — o instrucţiune care are nevoie de 
rezultatul furnizat de o instrucțiune anterioară trebuie să astepte dispo- 
nibilitatea acestuia: 

(2) conflictul ej:erandului produs — o insirucijune al cărui rezultat 
referă același registru ca și o instrucţiune lansată anterior în execuţie tre- 
buie să aştepte incheierea execuţiei acesteia. 

16 registre pentru adresa rezultatului păstrează adresele registrelor nece- 
sare pentru operauzii rezuliaţi în urma execuţiei unor instrucțiuni lansate 
anterior în execuţie, ele fiind coniruntate cu operanzii tuturor instructiuni- 
lor care așteaptă lansaica în. execuție pină ce nu mai intervin conflicte. 

Porțiunea aritmetică a secţiunii scalare este formată dintr-o unitate 
de încărcare /memorare și 5 unităţi funcţionale aritmetice independente 
care preiau date şi depun rezultate într-un set (fişier) de 256 registre pe 
64 biţi. Unitatea de incăreare/memorare deplasează datele între registre 
şi memoria principală. Perioada ceasului este + = 20 ns, iar timpii de func- 
ţionare ai unităţilor sînt : 


| Unitatea 1 |2] 3 
s A x ide timp (pe- 
Unitatea funcțională) (ns) rioade de operaţie logică 60 3 
ceas) ciclu unic 20 1 
! ) i i A 
1 Ea 3 mpărțire, extrage 


rea radicalului, con- 
versie pentru 64 


încărcare /memorare 300 15 biţi 1080 54 
adunare/scădere 100 5 pentru 32 biţi 600 30 
înmulţire 100 5 ÎN Sie ge E 
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Evaluările reprezintă timpii totali necesari pentru calcularea unui rezultat 
fie pe 32 biţi, fie pe 64 biţi ; toate unităţile de execuţie, cu excepţia ultimei 
sint pipeline şi pot prelua un nou set de argumente la fiecare perioadă 
de ceas, Totuşi, grupul de registre poate furniza-cel mult o pereche nouă 
de argumente într-o perioadă de ceas, acesta fiind factorul cel mai pro- 
babil de limitare a vitezei de calcul în secţiunea scalară, în ansamblul ei. 
Unitatea pentru împărţire, extragere a radicalului şi conversie nu este pipe- 
line, acceptind argumente noi la fiecare 54 perioade de ceas. Rezultatul 
produs de oricare unitate poate fi trecut direct la intrarea oricăreia, într-un 
mod denumit „,shortstopping”. Cînd se poate aplica, acest proces elimină, 
timpul necesar scrierii rezultatelor în registre şi regăsirea lor pentru utili- 
zarea în următoarea operaţie aritmetică. Timpii prezentaţi presupun că 
procesul shortstopping are loc şi, deci, nu include timpul necesar scrierii 
rezultatelor în registre sau memorie. Grupul de registre poate furniza cel 
mult doi operanzi instrucţiunii curente şi memora un rezultat al instrucţiunii 
anterioare, concurent, în cursul fiecărei perioade de ceas. Este suficient 
pentru atingerea unei performanţe scalare de 45 Mflop/s, faţă de maxi- 
mum de o instrucțiune executată la fiecare 20 ns, sau 50 Milop/s. 

Accesul la memoria principală este controlat; de către unitatea de 
încăreare/memorare care lucrează ca un pipeline care poate executa o 
citire (încărcare-load) din memorie la fiecare perioadă de ceas sau o scriere 
(memorare-store) în memorie la fiecare două perioade de ceas. Unitatea, 
posedă un bufer pentru cel mult 6 cereri de citire şi 3 pentru scriere. Un 
cuvînt poate fi citit din memorie și încărcat într-un registru în 300 ns, 
dacă memoria nu este ocupată. Dacă unitatea de memorie adresată este 
ocupată se consumă suplimentar 80. ns. 

Operaţiile cu vectori numerici sau șiruri de caractere se execută în 
secțiunea, vectorială care posedă una, două sau 4 unităţi pipeline în virgulă 
mobilă şi o unitate pentru operaţii cu şiruri de caractere (string unit), 
alimentate cu fluxuri de date de o unitate distinctă. Spre deosebire de 
CRAY X-MP, nu există registre vectoriale, toate operaţiile vectoriale fiind 
de tipul memorie-principală, datele parcurcind aproximativ 15 m de fir 
în comparaţie cu mai puțin de 1,8 la CRAY X-MP. Această diferenţă, 
explică, în parte, timpul de iniţializare mai mare al calculatorului CYBER 
205. Un vector poate avea pînă la 65535 elemente adresate succesiv. Dacă, 
datele necesare nu sînt memorate consecutiv, elementele dorite pot fi 
selectate cu un vector de control, care posedă un bit pentru fiecare cuvînt, 
al vectorului. Apoi, operaţia se execută numai cu elementele pentru care 
bitul corespunzător de control este 1. Oricum, toate elementele vectorului, 
memorate consecutiv, trebuie citite din memorie, chiar dacă numai un. 
procent mie din ele vor fi prelucrate. Dacă vectorul de control are. puţini 
biţi de ,„1”; elementele specificate ale unui vector lung pot fi selectate 
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cu o operaţie de comprimare (compress) şi re-memorate consecutiv. Ope- 
rațiile care urmează pot fi executate mai eficient, cu noul vector compri- 
mat. În plus, în unitatea de flux sînt implementate cu microcod instruc- 
țiuni de dispersare/grupare. Acestea adresează memoria fie aleatoriu, con- 
form unei liste de indexare, fie periodic (la intervale egale). 

Datele sosesc de la memoria principală în irei fluxuri : A şi B pentru 
cele două fluxuri de numere în virgulă mobilă şi (M, X, Y) pentru vectorii 
de control şi şiruri de caractere. Există două fluxuri de ieșire : C pentru 
numere în virgulă mobilă și R pentru şiruri de caractere. Fiecare are lărgi- 
mea de 128 biţi şi este distribuit de unitatea de flux în fluxuri de date de 
128 biţi pentru prelucrarea în unităţi pipeline în virgulă mobilă și fluxuri 
de 16 biți pentru utilizarea. în unitatea de prelucrare a şirurilor de caractere. 
Fiecare unitate pipeline din cele identice (P1 la P4 în fig. 2.16) constă din 
5 unităţi pipeline funcţionale separate pentru adunare, înmulțire, depla- 
sare şi intirziere, conectate prin unitatea de intersehimbare a datelor (vezi 
fig. 2.17). Împărţirea şi extragerea rădăcinii pătrate sint executate în 
unitatea de înmulţire. Fiecare unitate este conectată la unitatea de 
interschimbare a datelor prin 3 căi de date de 128 biţi (2 căi de intrare 
A şi Bşio cale de ieşire, C), Pe aceste căi se pot transfera date cu viteze 
de 100 milioane rezultate pe 64 biți pe secundă, pe unitate (Mr/s). Uni- 
tățile propriu-zise pot genera rezultate la jumătate din această viteză 
150 Mr/s pentru operaţii pe 64 biţi și 100 Mr/s pentru operaţii pe 32 biţi). 
Pentru instrucţiuni vectoriale simple care folosesc o singură unitate, unita- 
tea, de interschimbare conectează fluzurile de intrare A şi B, şi fluxul de 
ieşire C, la unitatea funcţională indicată, realizindu-se o viteză de calcul 
asimptotică, de 50 Mflop/s (operaţii pe 64 biţi) şi 100 Mflop/s (operaţii 
pe 32 biţi) pentru fiecare unitate pipeline. Dacă două instrucțiuni vectoriale 
succesive folosesc unităţi diferite, au un operand scalar şi sint precedate 
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Fig. 2.17 Organizarea de ansamblu a unei unităţi pipeline de la CDC 

CYBER 205. Msşina poate avea una, două san patru astfel de unități 

pipeline de uz general. (Fotografie furnizată de Control Data 
asi Corporation.) 
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de o instrucţiune de selectare a legăturii, atunci se realizează „unirea” 
(linkage). Fluxul de ieșire de la prima unitate este transmis de unitatea de 
interschimbare la intrarea, celei de-a doua unităţi. În acest mod, cele două, 
unităţi operează concurent, iar cele doua instrucţiuni vectoriale lucrează 
ca una singură, fără referinţe intermediare la memoria principală. Iată 
două exemple de astfel de instrucţiuni. triadice (unite) — o instrucţiune 
triadică are 3 argumente de intrare, de exemplu A-+ BxC; o operaţie 
diadică are două argumente, de ex. A+B: 

veotor+ scalarxveetor,  (vector+-scalar)rvecior, 
care sînt folosite frecvent în probleme cu matrici (de exemplu produsul 
interior a doi vectori prin metoda produsului intermediar. vezi $ 5.3.2). 
Această posibilitate joacă același rol cu înlănțuirea la CRAY X-MP, 
dar este mai restrictivă. La CRAY 205 pot fi unite cel mult două operaţii, 
iar un operand trebuie să fie scalar. Pentru astfel de triade unite perfor- 
manța asimptotică a unităţii pipeline în virgulă mobilă se dublează la 
100 şi 200 Milop/s pentru operaţii aritmetice pe 64, respectiv 32 biţi. Deci, 
performanţa asimptotică maximă este la CYBER 205 la 800 Milop/s 
pentru triade unite în cazul operaţiilor aritmetice pe 32 biţi și al unei mașini 
cu 4 unităţi pipeline. 

Fig 2.18 prezintă mai detaliat organizarea de ansamblu a unităţilor 
pipeline pentru adunare şi înmulţire (operaţia de adunare (fig. 2.18(a) 
este împărţită în 7 suboperaţii principale). O conexiune inversă (short-stop) 
la segmentul ADD permite adunarea unui rezultat ne-normalizat al unui 
element al unei operaţii vectoriale la următorul element al vectorului. 
Această posibilitate este folosită de instrucţiunea care produce vectorul 
O = Q+B; Co = A. Un alt shortstop preia rezultatul normalizat © al 
unităţii pipeline de adunare şi îl transformă în operandul de intrare B. 
Rezultatul ajunge înapoi la B opt perioade de ceas după ce operanzii iniţiali 
au intrat în unitatea pipeline, de unde posibilitatea acumulării Cis = O, + 
+A. Această facilitate este folosită la adunarea tuturor elementelor unui 
vector, ca și în instrucţiunile de realizare a produsului interior. Unitatea 
pipeline pentru înmulțire (fig 2.18(b)) are un shortstop similar (intirziere 
de 7 perioade de ceas) folosit pentru calcularea produsului tuturor elemen- 
telor unui vector. Rata asimptotică este pentru înmulţire de 50 Milop/s 
(operaţii artmetice pe 64 biţi) sau 100 Milop/s (operaţii aritmetice pe 32 
biţi) pentru un pipeline, iar pentru împărţire de 4 Mflop/s (operaţii pe 64 
biţi) sau 15,35 Milop/s (operaţii pe 32 biţi) pentru un pipeline. Viteza de 
execuţie a împărţirii poate fi dublată prin adăugarea unor facilităţi 
opţionale. 

Unitatea de prelucrare a şirurilor execută toate operaţiile logice şi de 
prelucrare a şirurilor de caractere pe biţi sau pe baiţi. De asemenea prelu- 
crează vectorul de control asociat cu marcarea operaţiilor în virgulă mo- 
bilă. Toate căile de date la această unitate sînt pe 16 biţi. Există 2 căi de 
intrare, X şi Y, și o cale pentru masca biţilor de control, M. Fluxul de ieşire 
se notează cu R. La orice CYBER 205 rezultatele operaţiilor logice pe bit 
se obţin cu viteză de 800 Mbit/s. 

Calculatorul CYBER 205 de bază posedă 8 porturi de I/E, pe 32 biţi, 
cu vi eza de transfer de 200 Mb/s. Un al doilea grup de 8 porturi. de I/È 


poate fi adăugat opţional, realizindu-se în ansamblu, o viteză de transfer 
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de 3200 Mbit/s. Fiecare canal de I/E are un registru bufer de 4996 de biți. 
Toate canalele de I/E partajează încă un registru bufer de I/E care face 
legătura cu unitatea de interfaţare la memorie printr-o magistrală pentru 
citirea, datelor, pe 128 biţi (R3) şi o magistrală pentru scrieri pe 128 biţi 
(W2). Rata totală de transfer de I/E este disponibilă unităţii centrale la 
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Fig. 2.18 Diagrama bloc a secțiunilor principale peniru (a) sumatorul in virgulă mobilă și 
(b) unităţile pipeline pentru înmulţire de la CDC CYBER 205. (Fotogrfafie furnizată de Control 
Data Corporation). 


orice nivel, vectorial sau scalar, Unitatea de control a funcţionării corecte 
(maintenance control unit — MCU) poate utiliza orice canal de I/E. 
Această unitate asigură interfaţa utilizatorului pentru verificarea, tunețio- 
nării, controlului sistemului (inclusiv a fazei de iniţializare) şi conducerii 
curente. MOU este formată dintr-o unitate de control, o imprimantă, o 
unitate de disc şi o interfață de canal. În regim off-line, MCU încarcă ru- 
tine de test de pe dise şi afişează rezultatele execuţiei lor. On-line, MCU 
supraveghează CPU şi afişează starea acesteia. . š 

Arhitectura calculatorului CYBER 205 poate fi scrisă în notația ASN 


descrisăn în $§ 1.2.4, ca 
C(CYBER 205)=Ipv?u(fEp, P2.P3)) oi M azeri M Iinea] 
MI(main) = (5121 6M3uogxuo2) 3 M3(staek) = 223Mierssa} 
Ep(vector)={4Fp,Bp3}—BpP4s,s; M2(buffer)=5M;,s2 
Fp=Fpoa,ul t+.) y 
Bp3(string)=Bu(bit, byte); Bp4(stream)=Bp(acatter/gather) 
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P2(scalar)=5EpPl, 256M; u 3,128 R 
öEpl={Fpua(+) Fpal(*), Ep(l-eycle), Bpu(logical), Fpu(V, 4) 
P3(1/0)=16(DaIOgMa) si Mae aea(170 butter); za 


2.3.3. Tehnologia 


Interesul privind tehnologia calculatorului CYBER 205 se concen- 
trează asupra unui nou circuit LSI, a tehnologiei de încapsulare și răcire 
pentru schemele hardware care folosesc masive de porţi logice ECL bipo- 
lar. În fig. 2.19 se arată o placă cu 15 straturi, care poate avea 10 x15 
cir. uite LSI. Principala caracteristică este conducta cu freon, care traver- 
gează de 10 ori placa, Circuitele LSI sînt montate pe socluri ceramice, fi- 
xate direct pe conductele de răcire, care menţin o temperatură de 554+1°0. 
În fig. 2.20 se prezintă înlocuirea unui circuit LSI, În fig. 2.21 apar diver- 
gele conectoare şi socluri folosite pentru fixarea circuitelor, iar în fig. 2.22 
ge prezintă modul lor de asamblare. Tabletele de cupru fac contact termic 
direet cu conducta de răcire. Circuitul LSI are 52 conexiuni externe plá- 
sate lateral și în partea inferioară a capsulei (denumită masiv LSI, fig. 
2.22 stînga). Doi conectori, de fiecare parte a capsulei, pentru 25 pini fie- 


F i 


Yig. 2.19 O placă logică de la CDC CYBER 205. Freonul circulă prin 
conducte pe care sint plasate circuitele logice. LSI. Fiecare placă cu 

15 straturi poate avea cel mult 150 circuite LSI. (Fotografie 
aa a, furnizată de Control Data Corporation). 
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care, realizează legătura, electrică cu placa (fig. 2.21 centru şi fig. 2.22 
dreapta), ei fiind într-un înveliș plastic. Masivul LSI este fixat în soclu 
cu un clip. Pentru a ne forma o idee a comprimării obținute-cu circuitele 
LSI, menţionăm că întreaga secțiune scalară L (vezi fig. 2.14 şi 2.15) ocupă, 
16 plăci, aflate intr-un dulap de aproximativ 2.1 m lungime. Circuitele ISE 


N—e. 702 


Fig. 2.20 O imagine de detaliu a unei plăci cu circuite de la CDC 

CYBER 205, arătind cum un tehnician inlocuieite un circuit LST, 

aflal pe soclu ceramic. Barele orizontale sint conducetele de răcire. 
(Fotogralic furnizată de Control Data Corporation). 


si 
L 
cuplarea circuitelor LSI la conductele de răcire. În centru, se 


observă două circuite montate într-o secţiune a plăcii logice 
-. (Fotografie furnizată de Control Pata Corporation). 


Tig. 2.21 Diversele socluri, conectorii şi fixatori folosite peniru E 
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Fig. 2.22 Stinga Partea superioară şi cea inferioară a unui circuit LSI montat pe soclul lui ceramic. Circuitul este denumit 
masiv LSI. Dreapta : cum se ataşează masivul LSI la conductele de răcire și placa logică. (Imagini furnizaie de Control Data Cor- 
poration.) 


13pini-linie(2) 
7 pini-linie(2) 


pif _____6pini-linie 


folosese tranzitori bipolari ECL. În fiecare capsulă se află nn masiv de 
aproximativ 168 comutatoare ECL (echivalentul a 300 porţi). Timpii de 
propagare sînt mai mici de 1 us, iar produsul putere x timp de propagare 
este de aproximativ 6pj. Se folosesc numai 29 tipuri de circuite LSI. 
Prin utilizarea tehnologiei LSI, se reduce consumul -de putere şi se îm- 
bunătăţese condiţiile de întreţinere. Prin reducerea numărului de conexiuni” 
externe ale circuitelor, fiabilitatea este îmbunătăţită de aproximativ 6 ori. 
Puterea consumată de fiecare cirouit LSI este mai mică de 10 ori decit cea 
cerută, de tehnologia SSI anterioară. 


Memoria principală a seriei 400 foloseşte circuite de memorie bipolar% 
de 4 K cu un timp de acces de 80 ns. Se mai folosesc circuite ECL 100 K. 
Fiecare milion de cuvinte de 64 biţi ocupă 2 secţiuni de memorie, fiecare 
format din 8 stive, aşa cum se arată în fig. 2.23. Fig. 2.24 reprezintă o 
imagine de detaliu a unei stive care memorează 128 K jumătăţi de cuvinte 
de 32 biţi în 8 blocuri independente de memorie. O stivă este formată din 2 
plăci de intrare, o placă de ieşire şi 16 plăci de memorie. Între plăci se 
a conductele sistemului de răcire. O placă de memorie, fig. 2.25, asigură 
para aralel 20 sau 19 biţi ai unui cuvint, pe baza circuitelor de 4 K. O pe- 
e de plăci de memorie formează un bloc care accesează în paralel 39 
biti (32 biți de date şi 7 biți BEODED); cite un bit de la fiecare din cele 
39 capsule, 


Deşi organizarea memoriei este identică la seria 600 cu cea de la 
seria 400, din punctul de vedere al utilizatorului, tehnologia și modul de 
îneapsulare sînt diferite. Se folosesc circuite MOS de 16 Kb, nivelul mai 
mare de integrare făcînd posibile configuraţiile cu 1, 2, 4, 8, 12 sau 16 
Mw. La maşina cu 16 Mw, fiecare din cele 8 secţiuni de memorie con- 


g. 2.23 Dulapurile unde se află memoria de un milion de cuvinte pe 64 
Piţi de la CYBER 205. La extreme se află două secțiuni ale meinoriei, iar în 
centru se află, în două dulapuri mai mici, interfața. În secțiunea de memorie 
din dreapta se pot vedea cele $ stive de memorie. CYBER 205 poate avea 1, 2 

sau 4 Mw. 
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ține 2 Mw, organizate în 8 module a 512 K jumătăți de cuvinte de 32 
biţi. Fiecare modul joacă acelaşi rol cu stiva de la seria 400 şi este format 
dintr-o placă de control cu circuite ECL de 100 K şi un ansamblu de 
plăci de memorie pe câre se află montate 4x4 plăci mai mici. Acestea 
Joacă rolul celor 16 plăci ale stivei de la seria 400, fiecare conținînd 20 
circuite MOS de la 16 Kb, fiind identice cu cele de la seria 400, din 
punctul de vedere al utilizatorului, tehnologia și modul de încapsulare 
fiind echivalentul mazimului de 4 Mw de la seria 400. La primul strat 
se mai pot adăuga suplimentar încă 3. Fiecare contribuie cu încă 4 Mw 
de locaţii consecutive de memorie, formînd memorii de 8.12 şi. 16 Mw. 
Timpul de acces la seria 600 este tot de 80 ns. 


Fig. 2.24 O stivă de memorie dela CYBER 205. Stiva are două 
plăci pentru intrare, una pentru ieșirea ¿i 16 pišti cu sireuite de me- 
morie. O pereche de plăci de memorie conţine un bloc de 16K 
jumătăţi de cuvinte pe 32 biţi. Cele 3 blocuri ale unei stive dau . 
un total de 128K jumătăţi de cuvinte. (Fotografie furnizată de ui 
i „Control Data Corporation). = 


Funcționarea secțiunilor scalară şi vectorială este controlată prin 
microcod aflat într-o memorie auxiliară, construită cu pînă la 90. circuite 
ECL de 100K. O astfel de placă apare în fig. 2,19. Aceste memorii, 
stivă pentru 128 instrucţiuni pe 32 biţi şi cele 236 registre da 64 biţi se 
află pe plăci auziliare, fiind formate din circuite ECL de 100K. Ciclul 
de citire/scriere al acestor elemente de memorie de 10 ns include. timpul 
de propagare pe poartă al circuitelor ECL 10CK, de 1 ns. 
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2.3.4. Setul de instrucțiuni 


Setul de instrucţiuni al calculatorului CYBER 205 este în med special 
bogat; în posibilități, dar este necesar să analizăm sistemul de adresare și 
formatele aritmetice. CYBER 205 are un sistem de adresare virtuală. 
Cimpul de adresă virtuală al unei instrucţiuni are 48 biţi şi reprezintă 
adresa unui bit individual în memoria virtuală. Astfel, se pot adresa pină 


Fig. 2.25 O placă de memorie de la CYBER 205, care furnizează 20 biţi în 
paralel. Circvitele ce 4K biţi sint montate centralin acuă matrici 4x10. Patru 
circuite, sint asociale fiecărei poziţii binare din cuvint, rezultind un total de 16K 
adrese de n:einorie. Două asifel de plăci formează un bloc de memorie şi asigură 
eci 89 biji ai unei jumătăţi de cuvint (32 pentru date şi7 biţi SECDED).. 
(Fotografie furnizată de Conirol Data Corporation.) 


lq 2,8 x 1014 biţi, 3,5 X 1013 baiţi, 8,8 x 1012 jumătăți de cuvinte pe 32 biţi 
sau 4,4xX102 cuvinte pe 64 biți de mernorie virtuală. Jumătatea 
superioară a memoriei virtuale este rezervată pentru sistemul de operare 
şi vectori temporari, lăsînd spaţiul de adresare virtuală de 2,2 x10? 
cuvinte pe 64 biţi pentru programele utilizator. Pe de altă parte, memoria 
principală fizică are maximum 4,2 X 10 cuvinte pe 64 biţi. Sistemul do 
operare transferă programe şi date în memoria principală, fie ca pagini 
mici (de 512, 2is sau SE cuvinte de 64 biți) fie ca pagini mari de 64 K 
cuvinte de 64 biţi. Secţiunea scalară foloseşte 16 registre asociative pentru 
transltatarea adreselor virtuale în adrese fizice. Registrele păstrează cuvinte 
asociative care conţin adresele virtuale, şi cele fizice corespunzătoare 
celor mai recent; folosite 16 pagini. Toate poi fi comparate în cursul unei 
perioade de ceas. Dacă adresa virtuală nu se găseşte, comparația va conti- 
nua într-o tabelă care conţine o extensie a listei cuvintelor asociative în 
memoria principală. Dacă esțe găsită, adresa virtuală este translatată 
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în adresa fizică, iar execuţia programului continuă. Dacă pagina nu este 
găsită, starea programului este reținută automat în memorie și se intră în 
programul monitor pentru a se transfera controlul altui job. 

Operaţiile aritmetice în virgulă mobilă pot fi executate fie cu jumătăţi 
de cuvinte de 32 biţi, fie cu cuvinte de 64 biţi. Numerele sînt exprimate ca 
Cx2E, unde coeficientul C şi exponentul E sînt întregi în complement față 
de doi. În formatul pe 32 biţi, È àre 8 biţi, iar C are 24, astfel că nume- 
rele aparţin domeniului 10-7 la 4+10*%. În formatul pe 64 biți, E are 
16 biţi, iar O are 48, numerele luînd valori în domeniul 10-58 la, —- 10854. 
Punctele binare se-află în extrema dreaptă a cîmpurilor binare ce reprezintă 
atit pe C, cât şi pe E, iar bitul de semn la estrema stingă. Un număr este 
normalizat cînd bitul de semn al coeficientului este diferit de bitul vecin 
din dreapta. Rezultatele în dublă precizie se memorează ca două numere 
cu acelaşi format ca un rezultat în simplă, precizie, şi adresate ca partea 
superioară, respectiv inferioară, a rezultatului. Ele pot fi prelucrate sepa- 
rat. O altă caracteristică este asigurarea numărului de cifre semnificative 
egal cu cel al operandului mai puţin semnificativ. În acest mod, rezultatul 
unei operaţii în virgulă mobilă este deplasat astfel încît numărul cifrelor 
semnificative să egaleze pe cele ale operandului mai puțin- precis. 

La CYBER 205 instrucțiunile au trei adrese şi pot fi pe 32 biţi sau 64 biţi, 
cu 12 formate posibile. Există 219 instrucţiuni diferite care pot fi împăr- 
tite în următoarele categorii (în paranteză se dă numărul de instrucţiuni 
din fiecare categoric) : 


Registru (60) Macro vectorial: (15) 
Index (9) . Sir (1) 

Salt (29) Sir logic ($) 

Vector (28) Netipie (51) 

Vector rar (11) Monitor (7) 


În această scurtă trecere în revistă nu vom încerca să descriem toate 
instrucțiunile ci numai posibilitățile setului de instructiuni prin exemplifi- 
cări ale celor mai interesante dintre ele. 
Instrucţiunile cu registre manipulează date în grupul de 256 registre 
pe 64 biţi, fie ca jumătăţi de cuvinte pe 32 biţi, fie ca cuvinte pe 64 
biţi, în funcţie de instrucţiuni. R, S şi T notează numere de registre 
reprezentate pe S biţi. Intr-un cuvînt, biții sînt numerotaţi de la stînga 
la, dreapta începînd cu zero. Iată citeva exemple : | 
acel .». on K] 
~ ADDX R, S, T adună partea de adresă (biții 16 la 63) a registru- 
lui R la registrul S și memorează în registrul T 
EXPH R, T ia jumătatea de cuvînt exponent din registrul 
R şi plasează-l în poziţiile binare mai puţin 
semnificative ale registrului T. 
Instrucţiunile index încarcă şi manipulează porțiuni de 16, 24 sau 48 
biți ai registrelor. : 
IS R, 116 creşte cei mai semnificativi 48 biţi ai registrului 
Ru operandul I16 pe 16 biţi din poziţia 16 la 
la 31 ai codului instrucţiunii. 
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Instrucţiunile de salt pot fi folosite pentru compararea sau examinarea 
unor biți, a unor indici pe 48 biţi, 2 operanzilor pe 32 sau 64 biţi. Rezulta- 
tul comparației determină dacă se continuă secvenţa sau se- efectuează 
salt la alte secvențe de instrucţiuni: 

CFPEQ A, X,[B, X] Se verifică egalitatea numerelor în 
virgulă mobilă pe 64 biți din registrele A 
şi X. Dacă comparația are succes, se 
efectuează salt la locația specificată de 
conținutul lui [B, Y]. 

Instrucţiunile vectoriale execută operații cu seturi ordonate de numere 
memorate în locații succesive de memorie. Operația se execută element cu 
element şi rezultatul se memorează într-un set consecutiv de locații. 
Vectorul poate avea cel mult 65535 elemente. Un vector este specificat 
într-o instrucțiune prin numerele (pe 8 biți fiecare) unei perechi de regis- 
tre, de exemplu [A, X] sau [01, 02]. Primul registru conţine adresa de 
bază (48 biţi) şi lungimea cîmpului (16 biţi) ale vectorului, iar al doilea 
conţine deplasarea pe 16 biţi faţă de adresa de bază, unde începe -vecto- 
rul. De asemenea, o instrucţiune vectorială include numărul registrului 
(8 biţi) care conţine adresa de start a vectorului de control (48 biţi). Vecto- 
rul de control este un vector binar ce conţine cîte un bit pentru fiecare 
operand vectorial. Este folosit pentru controlul (sau mascarea) memorării 
rezultatului operației vectoriale. Se poate cere, de exemplu, ca memorarea 
să aibă loc numai pentru elementele corespunzătoare biţilor de control 1 
(sau alternativ, zero). În continuare A, B, C, X, Y, Z notează registrele 
în domeniul 00 la FF în hexazecimal. 
MPYUV (A, X], [B, Y], C, Z  Înmulţeşte vectorul specificat de re- 
l gistrul [A, X] cu vectorul specificat 
de [B, Y] conform vectorului de con- 
trol specificat de registrul Z. Vectoruj 
rezultat este specificat de registrul C., 
Deplasarea pentru rezultat se află, 
prin’ convenţie, în registrul C41, 
Instrucţiunile vectoriale includ adunarea, scăderea, înmulțidrea, împărți- 
rea, (folosind fie partea superioară, fie inferioară a rezultatelor de lungime 
âublă, normalizate sau conform procedurii de păstrare a cifrelor semnitica- 
tive), funcții APL (Iverson 1962), modificarea reprezentării numerelor 
între formatele în virgulă mobilă pe 64 sau 32 biţi, radical, trunchierea, 
împachetarea și despachetarea coeficientului şi exponentului numerelor 
în virgulă mobilă. 

Dacă un vector conţine multe elemente nule sau nenule, se poate 
folosi un format special. Un astfel de vector poate îi comprimat într-un 
vector rar definit; de un vector de ordine şi un vector pentru date. Primul 
este un vector binar cu 1 bit pentru fiecare bit al vectorului complet. 
Prezenţa unui element nenul este identificată de un bit unu, iar prezența 
unui element nul, de un bit zero. Cu toate poziţiile elementelor nenule iden- 
tificate de vectorul de ordine, este necesar ca vectorul pentru date să 
memoreze numai valorile elementelor nenule în ordinea în care apar în 
vectorul complet. Un vector rar este specificat într-o instrucţiune prin 
numerele unei perechi de registre. Primul conţine adresa de bază şi lungi- 
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mea cimpului vectorului de ordine. Cu vectori rari se pot executa operaţii 

de adunare, scădere, înmulțire și împărțire, de exemplu : 

ADDINS [A, X], [B, X], [C,Z] adună normalizat vectorul rar spe- 
cificat de registrele [A, X] la vecto- 
rul rar specificat de . [B, Y], memo- 
rind rezultatul ca vector rar spe- 
cificat de registrele [C, Z]. 

Vectori rari pot: fi produşi de instrucțiuni de comparare între vectori : 


CMPEQ [4 ,X], [B, X], Z compară şi formează vectorii de ordine: 
dacă A, = Bn, bitul Z, va fi egal cu 1, 
altfel Z, = 0, urmată de o operaţie de 

comprimare vectorială, de exemplu : 
CPSV A, ©, Z comprimă vectorul C, conform vectorului de ordine Z. 

Un vector rar poate fi transformat într-un vector complet, de ex : 

MRGYV A, B, C, Z unifică vectorul A cu vectorul B sub controlul vec- 
torului Z. Dacă B este un vector cu toate elementele 


nule, atunci vectorul rezultat © este forma extinsă 
a vectorului rar A: 


dacă Za = 1, Ca = următorul element al lui A; 
dacă Za = 0, Cn = urinătorul element al lui B. 


Instrucţiunile vectoriale de comparare, comprimare, unificare şi mascare 
sînt exemple de instrucțiuni netipice. În această categorie mai intră citirea 
ceasului de timp real, numărarea biților dintr-un cîmp, simularea defectării, 
aflarea elementului maxim sau minim al unui vector, unificarea, şirurilor 
de biți sau baiţi, căutarea unui anumit bait. 

Un alt set de instrucțiuni de un interes special sînt macroinsirucțiu- 
nile v ectoriale, care execută cu o instrucțiune unele din cele mai frecvente 
operaţii în analiza numerică. Ele sînt implementate î în microcod și execută 
operaţii care ar solicita în mod normal o subrutină. În toate cazurile, 
elementele implicate în operație pot fi selectate eu un vector de control 
Z. lată exemple: 


ADIMEAN [A,X], C, Z adiacent înseamnă : €a = (An: + An)/2_ 
AVG [A, X], [B, Y], C, Z media Ca = (An + Bn)/2 - Bo 
DELTA [A, X], ©Ọ, Z diferențierea delta sau numerică : 


Ca = (An-a =: A.) 
DOTV [A, X], [B, Y], C, Z produsul de lungime dublă (AB) me- 
E morat în registrele © şi 0+1. 
VREVV [A, XJ], C, Z transmite vectorul A în C cu elementele 
În ordinea inversă. i 
Operațiile de dispersare şi grupare aleatoare sau periodică (vezi $ 2.2.4) 
se execută cu instrucţiuni unice la CYBER 205. Ele se aplică clementelor 
sau grupurilor deplasate la sau de la memoria principală sau grupu de 
registre, Exemple : 
VTOYX [A, X], B, C transmisie vector la vector mderat BSC 
| | indexat de A. 
VXTOV [A, X], B, © transmisie de vector indesat la vector, B 
indexat de A-C 
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Listele indexate folosite mai sus pot fi generate în orice modalitate con- 
venabilă , pentru acest scop se poate folosi o instrucţiune de căutare, de 
exemplu : n 
SRCHEQ A, B, C, Z Căutarea egalității și formarea listei indexate. 
Se compară A, cu toate elementele lui B 
pină se obține egalitate. Numărul comparații- 
lor fără succes înregistrate înainte de egalitate 
este memorat de Cn. Se repetă pentru toate 
elementele lui A. Numerele C, sînt de fapt 
indicii elementelor ce satisfac condiția de 
egalitate. Comparația poate fi limitată la 
__ anumite elemente prin vectorul de control Z. 
O altă formă de instrucțiune de căutare asigură un index unic, de exemplu : 
SELLT [A, X], [B, Y], C,Z selectează. conform condiţiilor mai mic ca: 
elementele corespunzătoare ale lui A şi B. 
se compară începînd cu primul element. 
Indexul primei perechi care satisface condi- 
ţia (aici A, < Bn) este plasat în registrul C. 
Perechile de elemente sînt rărite sau in- 
cluse funcție de biții vectorului de con- 
| trol Z. 
Instrucţiunile cu șiruri execută operaţii cu şiruri de date sub forma baiţilor. 
Acestea pot fi caracterele dintr-o mulţime posibilă de 256, inclusiv stan- 
dardele ASCII şi EBCDIC. Spre deosebire de CYBER 203, CYBER 205 
implementează numai o astfel de instrucţiune orientată pe bait : 
MOVL (A, X], [C, Y], I8 Baiţii din A sînt deplasaţi la stînga, devenind 
baiţii lui C. Copii ale baitului IS sînt introduse 
la dreapta la cerere | 
Pe de altă parte, operaţiile logice cu şiruri se execută pe bit. Se pot executa 
cu instrucțiuni diferite 3 operaţii logice, de exemplu : 
AND [A,X], [B, Y], [C, Z] operaţia logică SI a biţilor lui A cu biții lui 
B, rezultatul fiind în O. 
NOR [A,X], [B, Y], [0,2] negarea operaţiei SAU a biţilor lui A cu 
biții lui B, formîndu-se rezultatul în C. 
Instrucţiunile monitor pot fi folosite numai în modul monitor. Ele sint 
folosite de sistemul de operare pentru încărcarea şi memorarea cuvintelor 
asociative la adrese absolute în memorie, asigurind buna funcţionare a 
sistemului de memorie virtuală şi gestiune a întrepruperilor. Aceste ins- 
trucţiuni nu pot fi executate de un program utilizator fără a provoca un 
defect. 


3.9.5. Software 


Soft-ul dezvoltat pe CYBER 205 este o dezvoltare a celui proiectat 
pentru CDC STAR 100 şi funcțional pe STAR 100, CYBER 203, şi 
CYBER 205 începînd cu anul 1974. Principalele elemente sînt : 

(1) CYBER 205—OS—un sistem de operare batch şi interactiv ; 
(2) CYBER 200 FORTRAN — un compilator vectorizant pentru prin- 
cipalul limbaj de nivel înalt; l 
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(3) CYBER 200 META — limbajul de asamblare care asigură accesul 
la toate resursele hardware ale maşinii ; 


(4) utilitarele CYBER — inclusiv un încărcător (loader), editor de fier 
şi programe de întreținere. 

Sistemul de operare CYBER 200 este proiectat să asigure acces batch 
şi interactiv, fie local, fie de la distanţă, via un calculator front-end din 
szria CYBER 180, IBM sau VAX. Memoria de masă este asigurată de 
unităţile de dise CDC 819 (capacitate 4800 Mb, viteza medie de transfer 
36,8 Mb/s, timp de poziționare mediu de 50 ms) conectate la canalele 
calculatorului CYBER 295. Fiecare utilizator poate folosi o memorie pină 
la 2,2x 101? cuvinte de 64 biţi. Programe care folosesc acest spaţiu sînt 
memorate pe disc şi transferate în memoria principală a calculatorului 
(maximum 4x10? cuvinte de 64 biţi) în pagini. Sistemul de operare are 
sarcina de a aloca memoria fizică în pagini de dimensiune corespunzătoare 
şi de a le distribui programelor utilizator, care pot fi executate într-un 
mediu multiprogram. Pentru aceasta sistemul de operare foloseşte instruc- 
ţiuni ale modului monitor pentru schimbarea cuvintelor asociative între 
registrele asociate și tabela paginilor. Sistemul de operare este modular, 
iar comunicaţia între diferitele părţi se realizează prin mesaje. Nucleul 
sistemului de operare este memorat în memoria virtuală și paginat în 
memoria, principală cînd este necesar. Numai modulul Kernel şi paginato- 
rul sînt rezidente în memorie permanent. Modulul Kernel alocă timpul 
diferitelor job-uri active şi transmite mesaje părţilor diferite ale sott-ului. 
Paginatorul gestionează alocarea memoriei și înlocuirea paginilor. 


O altă parte a sistemului de operare, denumită sistemul: virtual asi- 
gură introducerea job-urilor de la terminalele batch sau interactive şi 
îndepărtează job-urile terminate sau inactive. Mesajele job-urilor active 
pentru operaţii de I/E sînt prelucrate de sistemul virtual şi trimise reţelei 
de cuplare slabă (loosely coupled network — LCM) pentru execuţie. 
Se execută şi task-uri de evidență. Un program operator asigură, comunica. 
rea, interactivă cu operatorul care poate: afișa job-urile utilizato şi 
informaţia, asociată ; încheia sau suspenda job-urile; analiza tabg ele 
sistem; și controla "cursul job-urilor prin calculator. 


Compilatoarele CYBER 200 FORTRAN includ atît standarăele 
ANSI X3.9—1966 şi 1978, cu extensii ce permit utilizatorului să folosească 
posibilităţile harâware ale calculatorului CYBER 205. S-au introdus noi 
posibilităţi pentru conformare la standardul ANSI N3.9—1978 și care a 
devenit un standard Control Data la comilatoarele CDU anterioare 
(NAMELIST I/O, ENCODE/DECODE, BUFFER IN ṣi BUFFER OUT). 
Compilatorul are un vectorizator automat care înlocuies ste buclele DO 
cu instrucțiuni vectoriale sau rutine STACKLIB cînd “astfel de 
substituţii nu modifică logica problemei. În plus, compilatorul CYBER 
200 FORTRAN posedă un optimizator care replanifică ordinea instrucțiuni- 
lor scalare pentru a optimiza utilizarea registrelor scalare și a unităţilor 
funcţionale pipeline scalare, asigurind astf el maximum concur enţei tuneţio- 
nale fără intervenția specifică a utilizatorului. 


Operaţiile vectoriale sînt specifieate prin descriptori care definesc vec- 
torii. Ele se translatează direct în formatul instrucţiunii maşinii, de scris 
în $2.3.4. Un vector este definit de un nume de masiv, un index de start 
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gi de lungime. Astfel, fiind dat un masiv A, A(10; 100) înseamnă vectorul 
care începe la locația A(10) şi are 100 elemente. Se pot folosi descriptori 
implicaţi în expresii, sau declaraţii dinamice. Iată exemple : ~ 

DIMENSION A(1000), B(1000) 

DESCRIPTOR AB, BD 
C(1) BY DECLARATION 

ASSIGN AD, A(1; 599) - 

ASSIGN BD, B (2; 999) 

AD=BD+2.0 . 

C(2) IMPLICIT USE OF DESCRIPTORS 

A(1; 999)=B(2; 999)+2.0 

În ambele cazuri masivul de elemente B(2), . . .„B(1009) este înmulţit cu 

i memorat în locaţiile A(1), . . .,A(999). În cazul (1) în instrucțiunea, arit- 

etică numele masivelor sînt înlocuite de deseriptori, iar în cazul (2) ele- 

mentek masivului ce urmează să fie folosite sînt specificate în instrucți- 
unea aritmetică. 

Se poate obține accesul la toate instrucțiunile calculatorului CYBER 
205 prin apeluri de subrutine speciale, sub forma CALL Q8ADDX (R, 
S, T) care, de exemplu, generează instrucțiunea mașină ADDX R, S, T. 
Mnemonicele pentru alte instrucțiuni maşină pot primi în mod similar 
prefixul rezervat Q3 şi folosite ca apeluri de subrutine pentru a genera o 
singură instrucțiune în locul codului FORTRAN necesar subrutinei. 
Codul de asamblare poate fi încorporat într-un program FORTRAN prih- 
tr-o referință externă în programul FORTRAN la codul produs de aşam- 
blorul CYBER 200, în cursul încărcării părţilor programului. 

Unele operaţii vectoriale diadice sau triadice frecvente, inclusiv re- 
cursive, au fost programate eficient şi sint accesibile prin apeluri la subru- 
tine speciale din STACKLIB. Iată exemple din cele 25 forme generale. 
(1) Adunare recursivă V1 

CALL Q3A010 (4(2), B(2), A(1), N ici 
echivalent cu 

DO 1 I=2, N 

„1 A(I)=B(I)- a 
(2) Adunare cu înmulțire 

CALL Q8MA:00 (A(2), C, B(2), D (2), N-1) 
echivalent cu 

DO 1 1=2,.N 

1 A(I)=C+B(I)+D(I) 

(3) Scădere cu înmulțire, recursiv V1, ordine inversă 

CALL Q8SM013 (A(N-2), B(N-2), O(N-2), A(N-1), N-1) 
echivalent cu 

DO 1 I=2, N 

J=(N+1)—I 

1 A(J}=B(J)—(C(J)+A(J+1)) 

Literele ce urmează lui Q8 identifică tipul operațiilor, iar codul numeric 
indică dacă operanzii sînt scalari sau vectoriali și care operanzi sînt re- 
cursivi. 
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Programul asamblor META generează cod binar relocatabil plecind 
de la mnemonice de instrucţiuni mașină, proceduri, funcţii și directive. 
Se asigură accesul la toate resursele hardware ale maşinii. Directivele per- 
mit programatorului să controleze procesul asamblării. Asamblorul per- 
mite : asamblarea condiţională, generarea codului re-entrant, care poate 
fi folosit simultan de mai mulți utilizatori fără duplicarea codului, posi- 
bilitatea refolosirii unora sau a tuturor mnemonicelor, posibilitatea de a 
defini un simbol pentru o mulțime (sau listă) de date, atribuite unor astfel 
de mulţimi (tipul şi numărul elementelor etc.) pot fi stabilite şi referite 
de programator. Procesul de asamblare are o loc în 2 etape (passes). La 
prima trecere, se interpretează toate instrucţiunile, se atribuie valori sim- 
bolurilor şi se rezervă locaţii pentru fiecare instrucţiune. La a doua trecere, 
se satisfac referinţele externe și interne, se generează datele și se produc 
listing-urile binare de ieşire și de asamblare. În formă programele asam- 
blate sînt modulare şi pot fi formate din mai multe subprograme unite de 
programul LOADER. 


Programul LOADER este un utilitar al sistemului de operare. Freia 
codul binar relocatabil produs de compilatorul FORTRAN al asambloru- 
lui META, îl leagă cu rutinele eventual cerute și produce un fişier direct 
executabil. Utilizatorul controlează caracteristicile fişierului avînd posi- 
bilitatea de exemplu, să ceară încărcarea anumitor rutine ca un grup fie 
într-o pagină mică, fie mare. fişierele sursă ale sistemului soft, inclusiv 
compilatorul şi asamblorul, ca şi programele utilizator sînt memorate ca 
imagini cartelă în fişiere program ce pot fi create, editate și menținute în 
modul cartelă-cu-cartelă, de către programul UPDATE. Fișierele binare 
obiect pot fi editate cu editorul bibliotecii obiect. 


Activităţile de întreţinere a fişierelor, de pregătire a job-ului și de in- 
trare/ieșire sint executate de calculatorul front-end, lăsînd astfel calculato- 
rul CYBER 205 să îndeplinească sarcina sa principală, de execuţie a cal- 
culelor de volum mare. O legătură hardware între calculatorul front-end 
şi CYBER 205 este gestionată software, permiţindu-se astfel ca mai multe 
calculatoare front-end să lucreze concurent. 


2.3.6, Periormanţa 


Vom considera în primul rînd performanţă lui CYBER 205 în cazul 
cel mai favorabil, cînd elementele succesive ale tuturor vectorilor sînt 
memorate contiguu în memorie. La pagina 184 se tratează performanța 
cînd vectorii nu sînt memoraţi contiguu. Tabela 2.4 prezintă performanţa 
așteptată pentru o serie de operaţii aritmetice în virgulă mobilă pe 64 biţi 
în două unităţi pipeline cu vectori memoraţi contiguu. Observăm imediat 
că D, este, cu excepţia operaţiilor de dispersare şi grupare, apropiat de 
valoarea 100 ; adică, cel puţin de două ori mai mare decit la CRAY X-MP. 
Deoarece valoarea lui n;i; determină care este cel mai bun algoritm de 
folosit (vezi cap. 5), se pot folosi algoritmi diferiți pe cele 2 masini, chiar 
dacă ambele sint în categoria calculatoarelor vectoriale pipeline. Pentru 
cele mai multe instrucțiuni, re este 100 Mop/s, în comparație cu 70 Milop/s 
pentru dispersare/grupare, max/min și instrucțiuni de produs de elemente. 
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În ultimul paragraf am comparat; performanţa calculatorului CYBER 
205 cu două unităţi pipeline cu CRAY S-MP pentru operaţii aritmetice 
cu aceeaşi precizie, 64 biţi. Există 2 modalităţi de îmbunătăţire a per- 
formanței la CYBER 205. O posibilitate este scăderea preciziei la 32 biţi 
în virgulă mobilă, iar cealaltă creșterea numărului de unităţi pipeline de 


Tabelul 2.4 Performanța vectorială estimată pentru un CYBER 205 cu donă unităţi pipeline 

pentru o Serie de instrucţiuni selectate (care lucrează pe 64 biţi), interpretate în termenii ræ şi 

m/» Pefrormanța reală percepută într-un mediu de lucru multiprogramat poate ii diferită, 

N = numărul elementelor vectorului produs, I = numărul elementelor vectorului (vectorilor) 
operanzi. Toţi vectorii sint memoraţi în locaţii succesive în memorie. 


A Timp ro 

Instrucțiune (perioade de ceas) | (Alop/s) D/a 
Adunare vectorială 51 +0,5N 100 ` 102 
înmulțire vectorială 52 + 0,5N l 100 104 
Adunare vectoriallă rară 88 + 1/16+7N/16 < 89* < 156 
înmulţire vectorială rară 88 + I/16+7N/16 ` <73** i 4128 
Produs scalar 116 +1 100 i 116 
Produs de elemente 126 + I 50 126 
Max sau min 85 I 50 86 
Comprimare f 52 + 0,51 100 104 
Mascare sau unificare 56 + 0,5N 100 112 
Distribuire aleatoare 83 + 1,25N 40 . 66 
Grupare aleatoare 69 + 1,2N 40 55 
Pelaţională vectorială . 56 + 0,5N 100 112 

m OI s2N 
»* IS AN 


la 2 la 4. Ambele operaţii au efectul dublării numărului de rezultate 
obținute într-un anumit interval de timp. Executind simultan aceste ope- 
raţii, se obțin de 4 ori mai multe rezultate în acelaşi interval de timp. 
Dacă pentru producerea a n rezultate pe 64 biţi, cu o maşină cu 2 unități 
pipeline, este necesar timpul | 

t = rain + Diya) (2.9) 
atunci acesta este timpul necesar prelucrării unui vector de lungime 


n’ = cn; unde c=2 sau 4 în situaţiile de mai sus. Înlocuind în ecuaţia (2.9), 
obținem 


t = r3}(n'/e + nu) (2.10a) 

| = (Cro) (n + cnaz) © (210) 

În noua situație (indicată de semnul ') obținem, prin definiţie i 
t = (ri (n + Diy) (2.100) 


şi de aici prin comparație cu ecuația (2.10b) 
rb = 0" Toy Lij = C' nig (2.10d) 


Astfel, dublind sau crescînd de 4 ori lungimea vectorului prelucrat într-un 
anumit timp, se dublează sau crește de 4 ori atît r, cât ṣi Napp. Acest efect 
poate fi observat în rezultatele furnizate de Kascic (1975) în fig. 2.26, 
unde se reprezintă timpul pentru adunarea vectorială diadică sau înmulți- 
rea, element cu element, operaţii de forma C = A opB pe un CYBER 205 
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cu 2 unităţi pipeline şi reprezentare pe 64 biţi (curba A : ra = 100 Mflop/s, 
Dı = 100) şi aceeaşi operaţie pe un CYBER 205 cu 2 unităţi pipeline, dar 
reprezentare pe 32 biţi sau pe un CYBER 205 cu 4 unităţi pipeline şi re- 
prezentare pe 64 biţi (curba B : re =200 Mflop/s, D1; =200). 

Fig. 2.26 mai prezintă curba C, a timpului pentru o operaţie triadică 
legată, cum este 

D = A + Bre (2.11) 

unde vectorul B este multiplicat cu scalarul c gi apoi adunat element cu 
element la vectorul A. Deoarece prezența cea mai mare a overhead-ului 
care contribuie la valoarea lui n, > este asociată cu citirea şi scrierea numere- 
lor în memoria principală, dublarea lungimii unităţii pipeline nu modifică 
semnificativ n/a. Deoarece după execuţia a două operaţii rezultatul este 
returnat memoriei, re se dublează. Cu alte cuvinte : fie timpul de execuţie 
pentru o operaţie vectorială de înmulţire sau adunare 


t= {0 +s +1— 1) (2.12a) 


unde s este timpul pentru operații de citire sau scriere în memorie, iar l 
este lungimea unităţii aritmetice pipeline. La CYBER 205, 8>1>1, deci 


ro = Tl, hip = 8 + l—izs l (2.12b) 


Dacă cele două operaţii sînt unite împreună, timpul de execuţie al unei 
operaţii vectoriale devine 


t=r(0 +8 + 2l — 1)/2 (2.132) 
deci, 


ro = 2:91, Me =S 4 2A— 1z (2.13b) 


Astfel, așa cum s-a afirmat 

anterior, ra se dublează iar n,/p 

rămîne aproximativ nemodificat. 

Curbele B și © din fig. 2.26 ilus- 

A trează aceasta. De fapt D; este 

mărit cu aproximativ 50% da- 

torită timpului de execuţie a in- 

strucţiunii de selectare a legă- 

B turii, ignorată în analiza de mai 

sus, dar care trebuie executată 

înaintea instrucțiunilor vecto- 

riale care trebuie egate împre- 

ună. Creşterea lui n, este ilus- 
trată în fig. 2.26 de curba C. 

Tabelul 2.5 prezintă rezul- 

ln i Dea Ze Bit A 2 tatele măsurătorilor lui ra Și Da 

y so în comparaţie cu cele anterioare 


Fia. 2.26 Curbele folosite pentru determinarea lui : AY X-MP cu 

ra şin, la COC CYBER 205, luate din lucrarea lui obținute la oa EN 

Hascic (1979). A, un CYBER 205 cu două unităţi pi- un singur Aa erio Ț 

peline, pentru operaţii aritmetice diadice pe 64 biți; specifică To măsoară performanța 

B, un CYBER us pate ARĂ, ta e al vectorului scurt (vezi $1.3.5), de 
64 biţi sau un 5 cu două unită @ e e nia afi ` TAG 

i 32 a. C, CYBER 205 cu patru unități pipeline aici se poaie afirma rect 

şi operaţii triadice pe 64 biţi. performanţa pentru vectoru 


| 
| 
| 
ad 
E 
| 
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este întotdeauna mai bună la X-MP decit la CYBER 205, chiar pentru con- 
figuraţia cu 4 unităţi pipeline. Pe de altă parte — exceptind 205 cu o 
unitate pipeline în modul pe 32 biţi — performanța pentru vectori lungi, 
măsurată de ru, este întotdeauna la CYBER 205 mai mare decit la X-MP/1 
Deci „trebuie să fie o valoare a lungimii vectorului, să spunem n, pentru 
care CYBER 205 este mai rapid şi sub care CRAY X-MP este mai rapid. 

Valoarea lui ñ se poate obţine prin egalarea performanțelor celor 2 
maşini. Dacă folosim exponentul (2) pentru CYBER 205 și (1) pentru 
CRAY X-MP, se poate scrie i 


l (A + nre = (A aM (2.14a) 
de unde e 
û = ofA — ya — 1) (4140) 


unde a = 1P xY şi y = aP rP sînt raportul performanțelor asimptotice, 
vespectiv specifice. S-a folosit ecuaţia (2.14b) pentru calculul valorilor lui 
n în tabelul (2.5). 


Tabelul 2.5 Performanţa asimptotică roo şi D,/2 ȘI performanţa specifică Ty =Foo/Ra/2 Pentru operaţii 
continue cu operanzi attați în memorie, la CYBER 205 și CRAY X-MP cu un CPU. ñ este iun- 
yimea Vectori pentru care CYBER 205 atinge o performanță mai mare decit CRAY X-AIP/1. 


Calculator ——xMilop/s) E e | Ms) | a 
Ip Biţi | Diada| triadă| Diadă (Triacă| Diadā|'Triada; Diadă 

CYBER 205 sa | so] 10! so) [1 |as 
un pipe .| 32 | 100| 200| 10| 150| 1 | 1,3| 58 
CYBER 205 -> 64 | 100| 200| 100| 150! 1 | 1,3] 58 
două pipe 32 | 200| 400! 200| 300| 1 | 1.3] 26 
CYBER 205 64 | 200| 400| 200| 300! 1 | 1,3| 26 
4 pipe 32 | 4001 800| 400| 600 | 1 | 1,3] 20 
1,3| 24| — 


CRAY X-MP/ 64 % | 1 53 60 


Parametrii de performanță din tabelele 2.4 şi 2.5 sînt valabili numai 
dacă elementele succesive implicate sînt memorate în adrese succesive de 
memorie, Se spune despre aceşti vectori că sînt contigut şi memoria tuturor 
calculatoarelor este astfel organizată încît accesul la astfel de vectori să, 
se facă fără conflict. Pasul unui vector este intervalul dintre adresele de 
memorie ale elementelor succesive ale unui vector. Un vector contiguu 
este deci un vector cu pas unu şi orice alt tip de vector este ne-contiguu 
În general, vectorii pot avea alte valori pentru pas. De exemplu, dacă 
elementele unei matrici (n xn) sînt memorate continuu coloană cu coloană 
(modul FORTRAN), liniile matricii formează vectori cu pasul constant 
de n. Se mai spune uneori că aceşti vectori sînt periodici. Alţi vectori pot 
avea elemente a căror locaţie este specificată de o listă de adrese care 
poate avea valori arbitrare. Acești vectori sînt numiţi aleatori şi sint acce- 
sați cu instrucțiuni de dispersare/grupare (sau adresare indirectă), 

Deoarece calculatoarele sint optimizate în mod obișnuit pentru accesul 
rapid la elementele unui vector contiguu, de obicei performanța lor se de- 
gradează (uneori dramatic) dacă nu se folosesc vectori de acest tip. Situaţia 
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este în special adevărată la CYBER 205 şi, ca un exemplu, să conside- 
răm timpul de execuţie al operaţiei X= Y+7 între vectori memoraţi aleato- 
riu. Deoarece la CYBER 205 există numai instrucţiuni vectoriale pentru 
vectori contigui, operaţia menţionată trebuie executată în mai multe 
etape : în primul rînd cei doi vectori de intrare Y şi Z trebuie „grupaţi” 
în doi vectori temporari contigui ; se execută apoi operaţia, ce produce ca 
rezultat un vector contiguu temporar ; rezultatul este dispersat în locaţiile 
aleatoare ale vectorului Z. Se poate calcula timpul de execuție „pe baza 
formulelor din tab. 2.4. 


grupare Y =(69-4+1,25n)7 

grupare 7 =(69+1,25n)t 

înmulțire contiguă =(52+4+0,5n)7 (2.15) 
dispersare X | =(83+4+1,25n)r 

timp total =(273+4,25n) 


=(4,25/7-1)(n4+64) 
Deoarece --! corespunde la 50 Milop/s, parametrii efectivi ce definesc 
operaţia cu vectori ne-contigui sînt: 


To = 771/4,25 = 12 Mflop/s; D, = 64 (2.16) 


Astfel, am găsit că utilizarea vectorilor ne-contigui a degradat performanţa 
printr-un factor de 10 față de performanţa de 100 Milop/s pentru vec- 
tori contigui. Deoarece timpul de execuţie al operaţiilor cu vectori necon- 
tigui este dominat de timpul operaţiilor de dispersare/grupare care nu 
este micșorat prin introducerea unor unități pipeline suplimentare, per- 
formanţa de 10 Milop/s nu se va modifica dacă se creşte numărul unități- 
lor pipeline. 

Desigur, ar fi absurd să se programeze în întregime CYBER 205 cu 
operaţii vectoriale ne-contigui de tipul discutat în ultimul paragraf. În 
primul rînd, toate problemele trebuie structurate astfel ca numărul ope- 
raţiilor cu vectori ne-contigui să se reducă la minim posibil, chiar la zero ; 
şi „în al doilea rînd, dacă operaţiile cu vectori ne-contigui sînt de inevitat, 
este de dorit să fie grupate astfel ca multe operații ne-contigui (în loc de 
una în exemplul de mai sus) să se execute cu vectorii temporar contigui. 
Astfel se amortizează efectul overhead-ului introdus de operaţiile de dis- 
persare/grupare, în cazul mai multor operaţii vectoriale. Chiar aşa, per- 
formanţa unei operaţii diadice cu vectori contigui şi necontigui reprezintă 
cazul cel mai bun, respectiv cel mai rău, performanța unei anumite pro- 
bleme aflîndu-se între cele 2 valori limită. Faptul că domeniul de variaţie 
al performanţei este la CYBER 205 atît de mare indică că pentru a obține 
performanța cea mai bună poate fi necesară o restructurare considerabilă 
a programului. 


2.3.1. ETA!” 

ETA! este primul produs al firmei ETA Systems Inc (1450 Energy 
Park Drive, St Paul, MN 551608, SUA), înființată de Control Data Cor- 
poration în august 1983 pentru a scurta ciclul de dezvoltare al noilor super- 
calculatoare şi, în particular, pentru continuarea dezvoltării seriei CYBER 
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205. Acest calculator de 10 Gilop/s a fost anunțat în 1986, iar prima 
livrare s-a efectuat la începutul anului 1987. Sistemul urmează să fie trans- 
format într-un calculator de 30 Gflop/s, ETA%, prin 1992, posibil prin 
folosirea tehnologiei cu arseniură de galiu. S-au comandat calculatoare 
ETA: pentru National Advanced Scientific Computing Centers la Prince- 
ton, Minnesota și Florida State Universities, ca şi pentru Supercomputer 
Applications Laboratory (SAL) de la University of Georgia, Athens. 
n exteriorul SUA, s-au făcut comenzi pentru German Weather Service 
din Offenbach, R.E.G. și pentru Atmospheric and Environmental Service 
of Canada. Prima livrare s-a făcut în ianuarie 1987 Universităţii de stat 
din Florida, la Tallahasse. : ; 
În fig. 2.27 (a) se prezintă arhitectura de ansamblu a calculatorului 
ETA», cu 2, 4, 6 san 8 CPU şi de la 2 la 18 unități de I/E, ce lucrează 
cu o memorie comună partajată de 64, 128, 192 sau 256 Mw (64 biți). 


Bufer comunicație 


(PU 0 
Arttecturc 
= îi 


Memoria 


CRUT comună 


E 64 -256 
Mword(64) 
CPU? 
800 Mflop/s 
CPU3 
1600Milaals >=? 200 Mword/s 
32 bit. 
| 
CPUG 
12 B Gflop/s 
L00Mbitsă 
5 Porturi VE 


l Unitate 
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Fig. 2.27 (a) Diagrama bloc a calculatorului ETA”, 


Fiecare CPU are aceeaşi arhitectură cu un CYBER 205 cu 2 unităţi pipe- 
line și 4 Mw (64 biţi) de memorie locală, așa cum s-a prezentat în $2.3.1 
la 82.3.5 În fig. 2.27 (b) se prezintă instalarea de la Tallahasse. Cele 2 


cabinete din faţă au fiecare cite 4 CPU cu memoria lor locală, în timp ce 
în cabinetul mai înalt din spatele lor se află memoria, comună şi unităţile 
de IJE. Deși memoria este organizată ierarhic, programatorii vor utiliza 
un spaţiu uniform de adrese virtuale, adresate cu 48 biţi, ca la CYBER 
205. Versiunea ETA% va avea 16 Mw de memorie locală pe procesor şi 
1 Gw de memorie comună. Performanţa maximă a fiecărui CPU ETA 
este pentru operaţii triadice de 800 Mflop/s în modul pe 64 biţi şi de 1600 
Milop/s în modul pe 32 biți, ce corespund la un ceas cu perioadă de 5 ns. 
Este o creștere de 4 ori faţă de CYBER 205 unde perioada ceasului era 


i ii să ice 
Fig. 2.27 cont. (b) O instalare a unui ETA! Ja Florida State University, Talla- 
hasse, efectuată în ianuarie 1987. Fiecare din cele două cabinete din plan apropiat 
conţine cîte patru CPU, cu 4Mw de memorie locală fiecare. Memoria comună de 
256Mw şi unităţile de I/E se află în cabinetul mai înalt din spate. 


de 20 ns. Performanţa maximă a sistemului complet cu 8 CPU este, prin 
urmare, de 12,8 Gflop/s în modul pe 32 biţi, atingiîndu-se astfel scopul pro- 
pus de firmă. Primele maşini vor avea o perioadă a, ceasului de 7 ns, 
Fiecare CPU este conectat la memoria partajată printr-un port de 
mare viteză cu o lărgime de bandă de un cuvint de 64 biţi pe perioada de 
ceas (200 Mw/s sau 12,8 Mb/s). Aceasta înseamnă 1/6 din viteza de transfer 
necesară alimentării celor 2 unităţi aritmetice pipeline ale unui CPU direct 
din memoria comună, de aceea, se presupune că un număr substanţial de 
calcule se execută în interiorul CPU folosind memoria locală, înainte ca 
rezultatele să fie returnate memoriei partajate. Bufterul de comunicare 
este o zonă de memorie de 1 milion de cuvinte, folosită pentru comunica- 
rea şi sincronizarea activităţii multiprocesorului. Operaţiile de I/E se 
execută prin 18 porturi de I/E mai lente, cu lărgime de bandă de 400 
Mb/s. Fiecare port de I/E conţine pină la o 8 unități funcţionale, fiecare 
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cu un microprocesor 68020 pentru controlul perifericelor standard (uni- 
tăji de disc și bandă și reţelelor (Ethernet, Hyperchannel şi LONS) via 
canale de I/E iple 


Cum viteza internă a dispozi- 
tivelor logice a crescut în interiorul 
capsulelor, importanța relativă a 
întîrzierii determinată de inter- 
conectări, înregistrată la trecerea 
semnalelor logice între capsule, a 
crescut. De aceea, un obiectiv im- 
portant al proiectanţilor de super- 
calculatoare este reducerea acestei 
întirzieri prin plasarea a cît mai 
multor porţi logice pe fiecare 
capsulă reducind numărul lor și, 
implicit, pe cel al interconexiunilor. 
Din păcate, creșterea nivelului de 
integrare VLSI conduce la folosirea 
tehnologiilor mai lente, inaccepta- 
bile în mod normal într-un calcu- 
lator de mare performanţă; de 
exemplu, sepoate atinge o densi- 
tate mult mai mare de porţi cu 
CMOS, în locul tehnologiei mai ra- 
pide ECL. ETA Systems a rezolvat; 
această, dilemă prin adoptarea teh- 
nologiei mai lente CMOS dar cu 
densitate mai mare şi a reciştigat 
viteza pierdută prin funcționarea 
capsulelor la temperatura hidro- 
genului lichid. 

Principala inovaţie la calou- 
latorul ETA: este tehnologică, 
deoarece arhitectura CPU este cu- 
noscută încă de la mijlocul anilor” 
60, la CDC STAR 100. ETA Sys- 
tems a adoptat masive de porţi 
CMOS cu densitate de 20 000 porţi 
pe 1 cm pătrat. Aceste circuite 
produse de Honneywell pentru 
programul VHSIC (very high-speed 
integrated circuit) al Departa- 
mentului apărării,. folosesc teh- 
Fig. 2.27 cont. (e Sus) O placă CPU de la ETA, nologie de 1,25 micrometri. Da- 
care conține oE a e a a unități pi- torită complexității, s-au încor- 
peline de a CBE 205. Deasupra acesteia este porat scheme de auto-test în in- 
memoria loca Mw. edesubt, aca i i 
plasată în hidrogen pa în ar ce placa CPU orară im pa ri 


este scufundată complet în lichidul de răcire, V. zf m 
memoria locală este rcăcită cu aer. dificarea stării. În consecință 
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multi-capsulă (MCC), care pot fi folosite de pînă la 121 ansambluri organi- 
zate matricial 11 x11, ca în fig. 2.30(a). MCO este o placă cu 14 straturi- 
cu suprafaţa de 31 x 31 cm?. Se montează impreună 13 astfel de plăci în- 
tr-un ansamblu denumit stivă (vezi fig. 2.30(b)). Memoria principală a 


Fig. 2.28. Un calculator Fujitsu VP-200. Cele Lrei cabinete din dreapta sint 
pentru memorie, unitatea scalară și procesoarele de canal; cele două din stinga 
conţin unitatea vectorială şi memorie. 


calculatorului VP-100/200 este construită cu circuite MOS static de 64 
Kb, cu un timp de acces de 55 ns. Aceste circuite nu necesită aripioare pen- 
tru răcire şi sint montate pe plăci cu 6 straturi. Fiecare placă conţine un 
masiv 4x32 de circuite de 64: Kb, rezultind 1 MB. 

În fig. 2.31 se prezintă arhitectura de ansamblu a procesoarelor ve cto- 
riale FACOM. Arhitectura unităţii vectoriale este ca la CRAY, în sensul 
că unităţi funcţionale multiple (pentru adunare, înmulţire și împărţire în 
virgulă mobilă) lucrează cu o memorie constituită din registre vectoriale 
(64KB). Există o unitate scalară separată, ca la CYBER 205, cu o memo- 
rie tampon de 64 KB (acces în 5,5 ns). Memoria principală (acces în 55 ns) 
de 256 MB este organizată în 256 blocuri şi este conectată la registrele 
vectoriale prin două unităţi pipeline de încărcare/memorare. Cifrele an- 
terioare sint pentru VP-200 ; la VP-100 dimensiunea memoriei principale 
şi a registrelor vectoriale se înjumătățeşte. Mai există 256 registre de mas- 
care, fiecare pe 32 biţi (16 biţi la VP-100), folosite pentru memorarea 
vectorilor de mascare care controlează operaţiile vectoriale condiţionate şi 
operaţiile de modificare a vectorilor. 
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O caracteristică unică este posibilitatea reconfigurării dinamice a 
registrelor vectoriale fie ca 256 registre vectoriale pentru 32 elemente a 
64 biţi, fie ca 128 registre a 64 elemente, .. ., etc. san ca 8 registre a 1024 
elemente. Lungimea registrelor vectoriale este menţionată de un registru 
special și poate fi modificată cu o instrucțiune. 

Perioada ceasului este la unitatea scalară de 15 ns, şi este denumită 
ciclul major. Unitatea vectorială lucrează cu o perioadă de 7,5 ns, ciclul 


Fig. 2.29 Capsulele răcite cu aer ale procesoarelor vectoriale Fujitsu, 
(a) un circuit LSI ECL cu 400 porţi. (b) Patru circuite de 1 Kb de 
memorie montate pe un modul. 
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minor. La VP-200, unităţile pipeline e adunare și înmulţire în virgulă 
mobilă pot produce două rezultate pe 64 biţi la fiecare perioadă de ceas, 
ceea ce înseamnă. o performanţă maximă de 267 Mflop/s pentru operaţii 
diadice cu operanzii în registre și o unitate pipeline, sau 533 Mtlop/s pen- 
tru operaţii triadice cu operanzii în registre, care folosesc ambele unităţi | 
pipeline simultan. La VP-100 aceste valori se înjumătăţese. Unitatea 
pipeline pentru împărțire este mai lentă şi lucrează la 38 Milop/s. La VP- 
200 fiecare unitate pipeline pentru încărcare/memorare poate produce 4 
cuvinte pe 64 biţi la fiecare 15 ns, echivalentul unei lărgimi de bandă 
de 267 Mw/s (133 Mw/s la VP-200). Aceste valori reprezintă 2/3 din lăr- 
gimea de bandă necesară pentru o operaţie diadică cu argumentele şi re- 
zultatele aflate în memoria principală. Astfel, spre deosebire de CRAY 
X-MP şi CYBER 205, Fujitsu VP nu are o lărgime de bandă suficientă 
pentru a executa astfel de cperaţii cu memoria. De aceea, compilatorul 
are o sarcină dificilă, de a maximiza utilizarea: registrelor vectoriale pentru 
rezultatele intermediare cu scopul limitării transferurilor cu memoria 
principală. 

Setul de instrucțiuni de la Fujitsu VP este identic cu cel de la IBM 
310, la care se adaugă instrucţiuni vectoriale; într-adevăr module de cod 
generate pe IBM 370 se pot executa, fără modificări pe VP. Instrucţiunile 
vectoriale includ evaluarea condiţionată a operaţiilor aritmetice vectoriale 
controlate cu o mască cu un bit pentru fiecare element al vectorului (ca 
la CYBER 205, $2.3.4) ; comprimarea şi extensia vectorilor conform unei 
condiţii ;adresare vectorială indirectă, adică o instrucţiune de dispersare 
grupare ca cea descrisă la CRAY X-MP în $2.2.4. Această instrucţiune 
poate grupa 4 elemente la fiecare 15 ns. 

Se anticipează că cei mai mulți utilizata îşi vor serie programele 
în FORTRAN » de aceea se dezv oltă foarte mult soft interactiv pentru 
optimizarea, şi vectorizarea unor astfel de programe (Kamiya, Isobe, 
Takashima și Takiuchi 1983, Matsuura, Miura și Makino 1985). De exem- 
plu, vectorizarea instrucţiunilor IF pune o problemă, specială, iar com- 
pilatorul vectorial FORTRAN 77 [VP selectează pe cea mai bună din cele 
trei metode disponibile. Acestea sint: (a) evaluarea condiţionată prin 
folosirea unor măști ; (b) selectarea elementelor care participă la operaţie 
într-un vector comprimat ; și (c) folosirea adresării vectoriale indirecte 
pentru selecţia elementelor. Compilatorul compară cele trei metode pe 
baza frecvenței relative a operaţiilor de încărcare/memorare în buclele DO 
și a fracţiei din numărul elementelor vectorului care participă la execuţia 
operației (raportul rea]). Dacă acest raport este mediu spre mare, cel mai 
bine este să se execute o operaţie aritmetică mascată ; în celelalte cazuri, 
metoda comprimării este cea mai bună, cînd frecvenţa operaţiilor de în- 
cărcare/memorare este mică, iar adresarea indirectă cind frecvenţa este 
mare. Interactivitatea ia forma unor sugestii pentru programator asupra 
modului cum să resiructureze programul pentru a crește nivelul vectorizării. 


2.4.2. Hitachi HITAC S-910 

Hitachi HITAC S-810 a fost al doilea procesor vectorial japonez 
produs, prima livrare efectuîndu-se Universităţii Tokyo în 1984. Alte 
maşini au fost instalate pentru uzul intern al companiei. Calculatoarele 
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Hitachi S-810 model 10 și model 20 sînt similare, în ceea ce priveşte arhi- 
tectura de ansamblu, mașinilor Fujitsu, aşa cum se poate observa prin 
compararea fig. 2.31 şi 2.32. Diferenţa principală constă in aceea că S-310 
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Fig. 2.31 Diagrama bloc a procesorului vectorial Fujitsu. (FPR notează 
registrele pentru numere în virgulă mobilă, iar GPR registrele de uz 
general). ` 


are mai multe unităţi pipeline (Nagashima, Inagami, Odaka și Kawabe 
1984), La S$-810 există trei unităţi pipeline de încărcare/memorare, în 
comparație cu numai două la VP. Aceasta înseamnă că operaţiile diadice 
cu operanzi din memorie pot fi executate de $-810 la întreaga viteză. 
Memoria principală are capacitatea de 256 MB (timp de acces 40 ns) 
şi mai există 64 KB de registre vectoriale. Ca şi la Fujitsu VP, mediul for- 
mat din registre poate fi reconfigurat dinamic pentru memorarea unor Yee- 
tori de lungimi diferite. i 

Modelul 20 are 12 unităţi pipeline aritmetice în virgulă mobilă (4 pentru 
adunare, 2 pentru înmulţire/impărțire urmate de adunare, şi 2 pentru 
înmulțire urmată de adunare). La ambele modele perioada ceasului este 
de 14 ns, care corespunde unei performanțe maxime de 71,4 Milop/s pe 
pipeline pentru operaţii cu operanzi în vectori, cu un total de 857 Mflop/s 
pentru cele 12 unităţi pipeline. Totuşi, dacă se ia în considerare timpul 
necesar încărcării registrelor vectoriale se obţine o valoare reală de 60 
Milop/s, dacă se folosesc toate unităţile pipeline. Sistemul este optimizat 
pentru evaluarea expresiilor de tipul A=(B-+0)+D care necesită trei 
încărcări vectoriale şi o memorare vectorială şi, deci, folosesc toate cele 
trei unităţi de încărcare/memorare. Modelul 10 are 6 unităţi pipeline, arit- 
metice, spaţiul de memorare format din registre, ca şi memoria princi- 
pală reduse la jumătate. Performanţa lui maximă este de 315 Mflop/s. 
Ca la toate calculatoarele prezentate, performanța reală va fi mai mică 
decit cea maximă, datorită problemelor puse de accesul la memorie. S-a 
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executat testul (ra, 2/2), prezentat în $1.3.3., pentru un număr de bucle 
DO vectorizate (instrucţiunea 10 din programul (1.5). În tab. 2.6 se dau 
rezultatele obţinute pe 8-810 modelele 10 și 20 cu reprezentare pe 32 şi 
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Fig. 2.32 Diagrama bloc a calculatorului Hitachi S-810 model 10. 
(VMR notează registrul de mascare vectorială, iar L operaţii logice.) 


64 biţi. Se observă pentru modelul 10 o performanță maximă de aproxima- 
tiv 240 Mflop/s pentru cazul a 4 operaţii, care este o expresie ce folosește 
integral sistemul hardware. În acest caz, există trei vectori de intrare și 
un vector de ieșire care ocupă cele 4 unităţi pipeline de acces la memorie. 
În plus expresia foloseşte cele două unităţi pipeline pentru adunare şi- 
cele două pentru înmulţire. Deoarece unităţile pipeline au perioada ceasu- 
lui de 14 ns, s-ar obţine 71 Mflop/s pe pipeline, de unde un maxim de 
284 Mflop/s. Valoarea măsurată de 240 Milop/s este mai mică datorită 
timpului necesar încărcării registrelor vectoriale. 

Dacă sint mai mult de trei vectori de intrare şi unul de ieşire, lărgimea 
de bandă a memoriei este insuficientă pentru alimentarea unităților pipe- 
line cu date la viteza cerută. Performanţa se degradează şi, apoi expresia, 
Tabelul 2.6. Rezultatele testului (roo; n,/2)pentru Hitachi S-810/10, iar pentru modelul 20 în paran- 


teze. Variab ilele notate cu litere mari sint vectori, celelalte scalari, (Date puse la dispoziţie de M, 
Yasumura, Hitachi Central Research laboratory, Tokyo). 


Operație : Precizi . 
, iu P. recizie r 

T aam L as biți (Mlop/s) Da/a 
Diadă 1 32 60(97) 60(130) 
64 62(119) 73(143) 
A=B+C 8 32 31(61) 46(108) 
Fi 64 56(110) 92(208) 
Triadă 1 32 118(180) 71(126) 
64 121(238) 73(152) 

A=B-+excC 8 32 43(85) 27(61) 
64 66(131) _41(108) 
4 operații CE 32 238(345) 91(157) 
64 231(489) 88(190) 

A=B-+(exC+tx D) 8 32 85(163) 24(58) 
64 134(263) 49(111) 
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trebuie tratată ca o combinație de operaţii diadice sau ir dice m îi simple, 
a căror performanță o vom trata în continuare. Expresii mai simple ca 
cele diadice sau triadice nu pot folosi integral unităţile ar::metice pipeline 
şi observăm viteze de aproximativ 60 şi 120 Mflop/s respectiv, pen ru vec- 
tori contigui cu un pas de o unitate. Această valoare se poate degrada la 
jumătate sau o treime datorită conflictelor de acces la blocurile de memorie 
dacă vectorii nu sînt contigui, în cazul nostru pentru un pas de 8. În con- 
cluzie, se poate spune că, pentru vectori contigui, re =60 Mflop/s pe opera- 
ţie aritmetică în expresie (pînă la un maxim de 4), cu o degradare de pină 
la un factor de3 pentru vectori memoraţi impropriu. Aceste rezultate nu 
par a fi afectate de precizia operaţiilor aritmetice. Astfel, la modelul 10 
performanţa se află în domeniul de la 30 la 240 Milop/s, funcţie de cir- 
cumstanţe. Valorile lui n,» se află în domeniul de la 40 la 90, 

Rezultatele corespunzătoare modelului 20 apar în tab. 2.6 în paran- 
teze. Acest model are un număr dublu de unităţi pipeline și observăm că 
To Și Dup au şi ele valori aproape duble, conducînd la o performanţă de între 
aproximativ 60 și 480 Mflop/s funcţie de circumstanţe. Se poate face compa- 
raţie cu valoarea de 630 Milop/s furnizată de producător. Deoarece şi n, 
este dublu, sînt necesari vectori de două ori mai lungi pentru a se obţin 
aceeaşi fracţie din performanța maximă. 

Hitachi S-810 este răcit cu aer, ca și Fujitsu VP şi foloseşte tehnologie) 
LSI ECL cu 550 porţi pe capsulă (timp de propagare 350 ps), sau 1500 
porţi pe capsulă (timp de propagare 450 ps). Registrele vectorilor folosesc 
circuite bipolare de 1 Kb cu timp de acces de 1,5 ns, iar memoria princi- 
pală foloscşte circuite RAM static CMOS de 16 Kb. Fiecare placă poate 
avea 40 capsule și are 14 straturi. 

Ca şi la Fujitsu VP, setul de instrucţiuni este o extensie a celui de la 
IBM 370, iar pentru IBM FORTRAN 77 este prevăzut un compilator vec- 
torizant. Tehnicile folosite pentru vectorizare sînt descrise de Yasamura 
et al (1984). Modulele obiect generate pe IBM pot fi executate fără nici o 
modificare. 


2.4.3. NEC SX1/SX2 


Calculatoarele SX1 şi SX2 ale firmei Nippon Electric Corporation 
au apărut ultimele, dar SX2 are performanţa teoretică cea mai mare, 
de peste 1 Gflop/s (fig. 2.33). În anul 1985 s-au livrat primele două SX2 
Universității Osaka şi firmei Sumito Trading Company. În Europa sint 
vindute de Mitsui și Company Europe Group. c 

Calcuatoarele SX folosesc porți bipolare (CML) cu densitatea de 1000 
pe capsulă și timp de propagare pe poartă de 250 ps. Memoria cache şi 
registrele vectoriale sînt construite cu circuite RAM bipolare de 1 Kb 
cu timp de acces de 3,5 ns. Aceste circuite (36 din ele) sînt incapzulate pe 
un suport ceramic de 10 cm? (fig. 2.34(a)), care este scufundat într-un 
modul de răcire (fig. 2.34(b)), prin care circulă apă. Memoria principală de 
256 MB se compune din circuite RAM static MOS de 64 Kb cu timp de 
acces de 40 ns. Memoria extinsă de 2 GB se compune din circuite MOS 
dinamic. 
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Arhitectura, calculatorului NEC SX2 este prezentată în fig, 2.35 
(Watanabe 1984). Există patru unităţi pipeline vectoriale generale, fiecare 
<aleuiind al patrulea element al unei operaţii vectoriale. Fiecare este o 


ati 


Fig. 2.3 Calculatorul Nippon Electric Company Sx2 


combinaţie între un pipeline pentru înmulţire/impărțire şi unul pentru 
adunare. Astfel, elementele unei operaţii vectoriale sînt distribuite unități- 
lor pipeline disponibile, ca la CYBER 205. Perioada ceasului eate de 6 ns, 
astiel că atunci cînd lucrează simultan toate cele 8 unităţi pipeline în 
virgulă mobilă se atinge un maxim ra = 1333 Mflop/s. Aceste cifre se 
referă la modelul SX2. Calculatorul SX1 are perioada ceasului de 7 ns 
şi jumătate din numărul de unităţi pipeline. re = 570 Mflop/s, maximum. 
Viteza de transfer între memorie şi registrele vectoriale este de 8 numere 
intr-o perioadă de ceas. 

Limbajul preferat este FORTRAN 77. Există un vectorizator, anali- 
zor și optimizator automat care asistă restructurarea codului FORTRAN 
pentru a se obţine un nivel mai bun de vectorizare. Spre deosebire de 
celelalte mașini, setul de instrucțiuni nu este compatibil cu cel de la IBM 
310, deci modulele obiect IBM nu vor putea fi executate pe această 
maşină, 


2.4k. Compararea performanțelor 


S-au efectuat un număr substanțial de teste pentru a compara cal- 
<culatoarele vectoriale descrise, iar unele rezultate apar în tab. 2.7. Primele 
trei linii dau performanța medie în Mflop/s pentru trei din aşa numitele 
bucle Livermore (McMahon 1972, Arnold 1982, Riganati şi Schneck 1984). 
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Lawrence Livermore Laboratory a selectat 14 astfel de bucle, ca fiind 
tipice pentru activitatea sa. Noi am selectat trei din ele, care ilustrează 
atit performanța cea mai bună, cît şi cea mai slabă a calculatorului. Bucla 
3, produsul interior, se află la baza celor mai multe rutine de algebră li- 
niară. Cele mai multe calculatoare vectoriale optimizează execuţia acestei 
bucle, pentru care se obţin, de obicei, performanţele cele mai mari. Per- 
formanţele corespunzătoare buclelor 6 şi 14 sînt caracteristice calculelor 
scalare deoarece buclele DO implică recurenţe, iar posibilitatea de vectori- 
zare este redusă sau eliminată. Aceste probleme sint rezolvarea unui sistem 
tridiagonal de ecuaţii și simularea deplasării particulelor în plasmă. 
Buclele Livermore sint numite teste nucleu (kernel benchmarks} 
deoarece constau din segmente mici de program, mai degrabă decit din 
programe de rezolvare completă a unei probleme. Observăm prin com- 
pararea buclei Livermore 3 cu buclele 6 sau 14 că performanța variază 
cu un factor de cel puţin 10. De aceea, este interesant; de văzut ce perfor- 
manţă se găseşte la o problemă completă care ar implica atît bucle vectori- 


Fig. 2.34 Tehnologia de răcire cu apă folosită de NEC 

SX1/SX2. (a) O capsulă de 10 em conţine 36 circuite LSI, 

ficcare a 1000 porti logice. (b) Modulul de răcire cu li- 
chid. - 


zabile cît și nevectorizabile, împreună cu un cod scalar. Pentru 
aceasta Dongarra (1985) a interpretat o serie de rezultate ale evaluării 
bine-cunoscutelor rutine LINPACK pentru rezolvarea a 100 ecuaţii li- 
niaro prin decompoziţie triunghiulară (LU) şi substituire (Dongarra et al. 
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Fig. 2.35 Diagrama bloc a;calculatorului NEC Sx2 


1979). Liniile 4 şi 5 din tab.2.7 dau performanţele codului FORTRAN şi 
a codului special optimizat în limbaj de asamblare pentru aceeaşi pro- 
blemă. Rezolvarea a 100 ecuaţii liniare nu este o problemă suficient de 
complexă pentru a demonstra posibilităţile unui supercaleulator, în par- 
ticular unul cu mai multe CPU. De aceea, în linia 6 se arată că cea mai 
bună performanţă se obţine la rezolvarea a 300 ecuaţii liniare, cu metoda 
matrice-vector (vezi paragraful următor). Performanţa obţinută pentru 
acest program de test indică ce s-ar putea obține cu un cod optimizat 
cu atenţie. 

Analiza tab.2.7 arată că nu este posibilă o distincţie clară între per- 
formanţele caluculatoarelor. Toate calculatoarele au performanţe similare 
şi ne putem aştepta să lucreze la cîteva zeci de Milop/s cu un cod FOR- 
TRAN. ne-optimizat şi citeva sute de Mtlop/s pentru un cod optimizat; cu 
atenţie (posibil în limbaj de asamblare). Caze calculator are cea mai bună 
performanţă pentru o problemă particulară, probabil depinde de atenţia 
cu care este optimizat programul. De exemplu, se poate obține o îmbu- 
nătăţire substanţială la CRAY X—MP dacă decompoziţia LU se exprimă 
în termeni de operație matrice-vector, în locul operaţiilor vector-vector 
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(vezi linia 6). O operaţie matrice-vector poate fi definită în modul multi- 
tasking foarte eficient cu ajutorul mai multor CPU (Dongarra și Bisen- 
stat 1984, Chen et al 1984). La CRAY X—MP se obține cea mai bună 
performanţă dacă se elimină simultan trei linii (Dongarra şi Hewitt 1985). 
În acest caz se obţin 718 Mflop/s la rezolvarea a 1000 ecuații cu un CRAY 
X—MP cu 4 CPU. Alte detalii privind compararea performanţelor super- 
calculatoarelor prezentate apar în lucrările lui Bucher (1984), Lubeck et 
al (1985) şi Bucher şi Simmons (1986). 


Tabelul 2.7 Citeva rezultate comparative ale execuţiei unor programe de test de către caleulatonre 
vectoriale pipeline. Pefroamanja medie este dată în Milop/s, pe 64 biţi, 


E E | Fujitsu | | i 
CRAY | Rj |SS a Hitachi | NEC! -0ă ratia 
Problema X — MPa GE aS Et s-810/20 | SX2 ! CRAY-2 i ETA: 
O "e | | 
lic) l t 
eoo l 
Performanța 210(1) | 100(1)| 108(1) 533(2) | 840 1 1300 | 48801) [1250(1) 
teoretică 420(2) | 20062)| 21642), 11424) | | 976(2) | 5000(4) 
maximă MOL) 40044) 43244) l i 11951(4) |10900(8) 
(roo, 7) | = asa), — (66.58)0)| = 
FORTRAN (51.3.3) | | | 
Livermore 3 | See [see — saoe | 212e | 5616 | 63(1) = 
produsul interior | "| 359(4)€ 332! | 91(1) 
Livermore 6 EOR scape! =! 102) | se i 130| 4(1) 2 
tridiagonal ! | | 10(4)e 321 i — | 84) E 
Livermore 14 | 7a] 3a) — | moje | ge i 24æ j 601) z 
analiza particulelor | i 15(4)8 11! — 20), — 
LINPACK* 24(1) | 202) (20) 180% 17 | 451| 150% = 
FORTRANN a 
n = 100 i 
Asamblorb | 440| 250) — |  — = | s sa 
bucla interioară | | 
n = 100 | i | 
Matrice-vectore | 1711) | 312)! 1861 18302) 1588 | 309 93(1) 
cel mai bun | 257(2) j 271) 230(2)h 
asamblor | 480(4) | 
N = 300 i i i | | | 
== ON | ' i 
Note 


a Rezolvarea ecuațiilor liniare cu DGEFA și DGESL pentru matrici de ordinul n (Don- 
garra ct al 1979). 


b Subrutine de bază pentru algebra liniară (BLAS), optimizate în limbaj de asamblare 
(Dongarra 1985). 

c Metoda matrice-vector a lui Dongarra și Einsenstat (1984). ] Matrice Qe ordinul 300.Re- 
zultatul cel mai bun în limbaj de asamblare (Dongarra 1985). 

c Numărul de CPU folosit apare în paranteză. 

e Fuss și Hollenberg 1984. 

î Numărul de unități pipeline apare în paranteză. 

g Van der Steen 1986. 

h Toate în FORTRAN 

i După optimizare (Nagashima ct al 1984). 

į Dongarra 1986 

k Dongarra și Sorensen 1987. 

1 Un prototip CRAY-2 cu un procesor (Bruiines 1985). 


m Cod FORTRAN cu bucla BLAS (Lawson et al 1979, + Dongarra 1985). Directivele FOR- 
"TRAN sint permise. 


n Numărul din paranteză indică modelul. 
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2.5 FPS AP-129B și derivatele sale 


FPS AP—120 B și derivatele gale — AP 1650 L, FPS — 100, 164, 
164/MAX, 264 şi FPS 5000 — sînt membrii unei singure familii de cal- 
culatoare ce se bazează pe o arhitectură comună, cea a calculatorului 
FPS AP—120B. Aceste calculatoare au fost redenumite astfel: versi- 
unea MSI originală a lui FPS—164 (acum nu mai cste produs) este de- 
numită M140, ultima versiune VLSI (la inceput FPS—364) se cheamă 
M30, FPS—164/MAX este denumit M145, iar FPS—264 este acum M60. 
Toate sint produse de Floating Point Systems Inc. (PO BOX 2 189 Port- 
land, Oregon 91223, S.U.A.), în Beaverton lîngă Portland. Compania a 
fest fondată în 1970 de C.N.Winninostad pentru a produce unităţi în 
virgulă mobilă de mare performanţă, dar cu un cost scăzut, pentru a 
creşte performanțele miniealculatoarelor, în particular la aplicaţiile de 
prelucrare a semnalelor. Începînd cu anul 1971, firma a produs unităţi 
în virgulă mobilă pentru a îi incluse în alte maşini (de exemplu, Data 
General). Prima maşină vindută, AP—120B, a fost proiectată de George. 
O'Leary şi Alan Chalesworth și are o performanță de 12 Mflop/s. Livră- 
rile au început în 1976, iar la sfîrșitul anului 1985 erau instalate aproxi- 
mativ 4.400 maşini. FPS100 este o versiune mai ieftină a lui AP—120B. 
AP-—120B a fost proiectat pentru a fi ataşat ca extensie la minicalcula- 
toare, iar o versiune cu o memorie mai mare, AP—190L, a fost proiec- 
tată pentru calculatoare mari ca cele din seria IBM 370. - 

În anul 1980 s-a extins utilizarea calculatorului AP—120B de la 
aplicaţii de prelucrare a semnalelor la calcule științifice generale, prin 
creșterea lungimii cuvîntului de la 38 biţi la 64, iar a adresei de la 16 la 
24 biţi. Capacitatea memoriei -a fost sporită, la început la 1 Mw, apoi 
la 7,25 Mw. Noua mașină obținută, FPS—164, a început să fie comer- 
cializată în 1981. Pînă în 1985 s-au vîndut 180 FPS—164. Deşi capabil 
să rezolve probleme mult mai complexe decit AP—120B, AP—164 nu 
execută mai rapid operaţiile aritmetice— într-adevăr performanţa sa maxi- 
mă de 11 Milop/s este mai mică decît cea a lui AP—120B cu un Milop/s. 
În 1984 s-a obţinut prima, creştere a vitezei de calcul aritmetic prin in- 
troducerea unei plăci denumită accelerator matricial (MAX). Fiecare placă 
MAX poate fi considerată din punct de vedere computaţional ca echi- 
valentul a două CPU FPS—164, astfel că o maşină cu aproximativ 15 
plăci are o performanţă teoretică maximă de 41 Milop/s, corespunză- 
toare a 31 CPU FPS—164. Atit AP—120B, cît şi FPS—164 sînt imple- 
mentate în tehnologie TTL. Următoarea îmbunătăţire a performanţei. s-a 
realizat în 1985, cînd s-a anunţat versiunea în tehnologie ECL a maşinii 
FPS—164, denumită FPS—264, cu o performanţă maximă de 38 Milop- 
is. FPS—164 a fost proiectat; în 1979 în tehnologie MSI cu între 10 şi 
100 porţi pe circuit. Maşina a fost reproiectată în tehnologie VLSI CMOS 
şi este vindută sub numele FPS M 30, avînd posibilitatea de a fi conec- 
tată la microVAX şi staţii de lucru SUN. Arhitectura este aceeaşi ca 
la FPS—164. s 

FPS—164/MAX este un calculator SIMD deoarece cele 31 CPU ale 
unei configurații complete lucrează sincron (lock-step) ca urmare a exe- 
cuției unui flux unic de instrucțiuni. O altă dezvoltare a arhitecturii 
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AP—120B s-a realizat în direcţia MIMD. Seria de calculatoare FPS— 
5000, anunțată în 1983, are un procesor de control, pînă la trei co-pro- 
cesoare aritmetice şi un procesor de I/E care comunică printr-o magis- 
trală comună cu memoria comună şi un calculator gazdă. Fiecare co- 
procesor aritmetic (AC) are propria unitate de control, şi poate executa 
o rutină proprie, diferită de ceea ce execută celelalte AC. Conform clasi- 
ficării din 1.2.6., FPS—5000 este un calculator MIMD cu memorie par- 
tajată, conectat prin magistrală. Co-procesorul aritmetic XP—32 este un 
proiect nou datorat lui Pincus ş Kallio, dar respectă principiile generale 
âle calculatorului AP—120B. 

Toate calculatoarele prezentate mai sus sint denumite masive de pro- 
cegoare deoarece au fost proiectate să prelucreze eficient masive de numere. 
Arhitectural, toate sînt calculatoare pipeline, avind un număr mic de 
unităţi aritmetice pipeline ce lucrează cu o memorie și registre comune. 
Din acest punct de vedere, au o arhitectură similară cu CRAY—1. Este 
important să înțelegem că deşi aceste calculatoare sînt denumite masive 
de procesoare, ele nu sînt calculatoare de acest tip, ca ICL sau DAP(vezi 
capitolul 3). Ambiguitatea semnificației expresiei „masiy de procesoare” 
ne-a determinat să evităm utilizarea ei în această carte. Totuşi, termenul 
este folosit în mod obișnuit pentru calculatoarele descrise aici, în special 
de către producători. Unii preferă să interpreteze inițialele AP ca pro- 
cesoare aiașate (attached processors), deoarece cele mai multe au nevoie 
de un calculator gazdă. 

Vom începe prin descrierea detailată a părintelui familiei, AP—120B 
($ 2.5.1 la $ 2.5.6), continuăm cu aspecte speciale privind calculatoarele 
FPS— 164 şi 264 ($ 2.5.7), FPS 164/MAX ($ 2.5.8) şi FPS—5000 ($2.5.10). 
În $ 2.5.9 se discută utilizarea mai multor FPS—164 ataşate la o gazdă 
pentru a forma un masiv de procesoare slab interconectate (LCAP). 


2.5.1. FPS AP-120B 


În afara documentației de firmă, referințele principale care descriu 
AP-120B au ca autori pe Wittmayer (1978), Harte (1979) şi Charlesworth 
(1981). 

Fig. 2.36 prezintă o instalare a unui calculator gazdă PDP 11/34, 
aflat în partea inferioară a rack-ului, un AP-120B, două unităţi de disc, 
şi o unitate de bandă magnetică şi o imprimantă. Consola nu apare în 
imagine. Mașina consumă mai puţin de 1,3 KW (în comparaţie cu apro- 
ximativ 115 KW la CRAY X-MP). Răcirea se face cu aer forțat. Ma- 
şina poate fi transportată de un singur om şi conectată la o priză standard 
de 13 A. Spre deosebire de CRAY X-MP și CYBER 205, nu sînt necesare 
instalaţii de răcire sau generatoare auxiliare. 

Fig. 2.37 prezintă o imagine a calculatorului AP-120B cu o placă 
logică parţial extrasă. În partea superioară pot fi văzute ventilatoarele 
care suflă aerul pe direcţie verticală. Șasiul are capacitatea de 28 plăci 
care pot fi alese pentru a satisface condiţiile particulare pentru memorie și 
intrare/ieșire. În fig. 2.38 apar două plăci în detaliu. Fiecare placă are 6 
straturi, 3 pentru semnale logice şi 3 pentru tensiunile de alimentare de 
5 V şi +12V. Sursele de alimentare sînt montate separat și nu apar în figură. 
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Fig. 2.36 O instalare FPS AP-20120B. Fig. 2.37 Imagine ce prezintă plăcile calcula- 
Calculatorul AP-120B este conectat la torului FPS AP-120B, modul de montare și ră- 
un PDP 11/34, care are două unităţi de cirea cu aer. (Fotografic furnizată de DI. Head 
disc, o unitate de bandă şi o impriman- şi Floating Point Systems SA Lid.) 
tă. (Fotografie furnizată de DI. Head și 

Floating Point Systems, SA Ltd.) 


2.5.2. Arhitectura 


Arhitectura, calculatorului AP-120B apare în fig. 2.39. Se bazează pe 
memorii multiple cu funcţie specială, care alimentează două unităţi arit- 
metice pipeline via căi de date multiple. Maşina este condusă sincron pe 
baza unui singur ceas cu perioadă de 167 ns. Aceasta înseamnă că starea 
maşinii după o secvenţă de operaţii este întotdeauna cunoscută și repro- 
ductibilă. Modul de lucru al mașinii poate fi simulat exact, perioadă după 
perioadă, mașina nesuferind de incertitudini de sincronizare specifice unor 
calculatoare anterioare care aveau ceasuri separate pentru unităţi inde- 
pendente. Între memorii și unităţile pipeline sînt mai multe căi de date 
pentru minimizarea întirzierilor şi aconflictelor care pot interveni cînd 
este partajată o singură cale de date de către mai multe unităţi. 

Plecînd din partea superioară a figurii 2.39 observăm memoriile : 
pentru program cu capacitatea de pină la 4K cuvinte de 64 biţi (timp de 
acces 50 ns); sorateh-pad (S-pad) formată din 16 registre de 16 biţi pentru 
adrese și indici; pentru tabele (ciclu de 167 ns, fie numai read-only, fie 
read/write) de pînă la 64 K cuvinte de 38 biţi pentru memorarea constante- 
lor folosite frecvent, ca sine şi cosine la calcularea transformatei Fourier ; 
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două grupuri (dată 
pad X şi data pad Y) 
de 32 registre pe 38 
biţi pentru memo- 
rarea rezultatelor 
temporare în vir- 
gulă mobilă ; şi pen- 
tru date reprezen- 
tate pe 38 biţi (plus 
trei biţi de parita- 
te), adresabilă di- 
rect pînă la 64 Keu- 
vinte, iar cu o a- 
Fig. 2.38 Două plăci cu circuite ale calculatorului FPS AP-120B. ares ci gs ă 
Stinga : Placa cu bufere a unităţii de control, unde se decodiiică in- e pagină le iți 
strucțiunile ; dreapta : o placă a memoriei program. (Fotografie fur-  expandabilă la 
nizată de DI. Heas și Floating Point Systems SA Ltd.) 1 Mw. La fiecare 
2 din cele două in- 
trări ale sumatorului și multiplicatorului în virgulă mobilă există căi se- 
parate pentru date pe 38 biţi. Aceste 4 căi independente pot fi alimentate 
de memoria principală, data pads sau memoria pentru tabele. Trei căi su- 
plimentare pot conecta ieşirile la intrări sau la data pads sau memoria prin- 
cipală. Căile multiple permit citirea unui operand de la fiecare data pad şi 
scrierea unui rezultat în fiecare data pad în cursul unui ciclu maşină, 
Adresele din interiorul ambelor data pads sînt furnizate de registrele de 
adresare a data pad (DPA). Este posibilă adresarea relativă (—41a +3), 
în cadrul cimpurilor de index a instrucţiunii XR, YR, XW, YW (vezi 
$2.4.4). 3 
Memoria principală pentru date este disponibilă în module de 8K 
(sau module de 32K, funcție de tipul capsulei), organizate fiecare ca o 
pereche de blocuri de memorie independente, un bloc pentru adresele pare 
şi unul pentru cele impare. Memoria standard are un timp de acces de 500 
ns, iar memoria rapidă opțională un ciclu de 333 ns. Referințele succesive 
la acelaşi bloc de memorie (de exemplu, toate adresele pare mai mici ca 
8K) trebuie separate prin cel puţin 3 perioade de ceas la memoria stan- 
dard sau două perioade la cea rapidă. Două referințe succesive la blocuri 
diferite de memorie (de exemplu, două adrese vecine care se află în blocuri 
diferite sau două adrese de acelăși tip separate prin 8K şi, deci, aflate tot 
în module diterite) pot avea loc în cursul unor perioade succesive de ceas. 
Alternind referinţele la blocurile de memorie de adrese pare, respectiv 
impare, ca la accesarea seovenţială a elementelor uhui vector lung, 86 
poate executa o referinţă într-o perioadă de ceas în cazul memoriei rapide, 
obţinîndu-se un acces la același bloc la fiecare 333 ns şi un timp de acces 
efectiv minim între cererile la memorie de 167 ns, Pentru memoria stan- 
dard această viteză trebuie înjumătăţită, obţinîndu-se în cazul optim al 
accesului secvențial 333 ns. Dacă se accesează repetat acelaşi bloc, se în- 
registrează un timp de 500 ns (trei perioade de ceas). Producătorul spune 
că memoria, are un „cielu” întrejesut (interleaved) de 167 ns pentru memo- 


ria rapidă și de 333 ns pentru memoria standard, chiar dacă capsulele de 
memorie au un ciclu fizic de 333 şi, respectiv, 5¢0 ns, Cind se fac com- 
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paraţii cu alte maşini trebuie să ne amintim că am ales timpul de acces al 
capsulei de memorie ca o măsură a calității memoriei (de exemplu, memoria 
pr. icipală la ORAY X-MP cu 38 ns, deşi aceasta este organizată în blocuri 
pentru a pro:tuce un „ci?lu” întrețesut de 9,5 ns). Dacă o referinţă se face 
ia o zonă de memorie ocupată, maşina oprește execuţia pină ce se poate 
satisface cererea, 
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Fig. 2.39 Arhitectura calculatorului FPS AP-120B, care prezintă memoriile multiple, 
unităţile aritmetice pipeline și căile de date (Schema pusă la dispoziţie de Floating Point 
i Systems Inc.) 


La AP-120B instrucțiunile sînt pe 64 biţi, fiecare controlind funcpio- 


narea tuturor unităților maşinii. Astfel, există, în acest sens, numai o in- 
strucțiune în setul de instrucțiuni (vezi 2.5.4) cu cîmpuri care controlează 
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fiecare din cele 10 funcții, deşi unele cîmpuri se suprapun, excluzind astfel 
anumite combinaţii de funcţii. Acest mod se numește „„microcod orizontal”, 
Instrucţiunile sînt executate la viteza maximă de una pe perioada de ceas, 
adică 6 mil. instrucțiuni pe secundă dar, deoarece fiecare instrucțiune 
determină execuția mai multor operații, echivalentul pe o maşină conven- 
țională unde o instrucțiune controlează numai o unitate este mai mare. 

S pad conţine o unitate aritmetico-logică pe 16 biți independentă folo- 
sită pentru calculul adreselor „numărarea buclelor şi a indicilor în cadrut 
grupului propriu de 16 biţi. Se pot executa operațiile : adunare între întregi, 
scădere ; AND, OR ; deplasări și negări pentru utilizarea în transformata. 
Fourier. (vezi $5. 5). Toate aceste operaţii durează o perioadă de ceas. Nu 
se poate executa înmulţirea. Aceste operaţii cu numere întregi se execută 
în paralel cu calculele în virgulă mobilă din unităţile pipeline. 

Ambele unităţi pipeline de adunare și înmulţire în virgulă mobilă 
pot prelua o nouă pereche de operanzi şi furniza un rezultat în cursul fiecă- 
rei perioade de ceas. Astfel, viteza maximă de generare a rezultatelor este 
de 6 Mflop/s pe pipeline, sau 12 Mflop/s dacă ambele pipeline pot fi ali- 
mentate continuu cu date. Pentru problemele obișnuite performanţa se 
află probabil în domeniul 4—8 Mflop/s (vezi $2.5.6). Unitatea pipeline de 
înmulțire are lungimea de trei perioade de ceas (500 ns)iar cea de adu- 
nare de două perioade (300 ns). Unitatea pipeline de adunare poate realiza: 
şi operaţiile logice AND, OR şi echivalent să calculeze valoarea absolută, 
să convertească numerele între reprezentarea semn-valoare absolută şi com- 
plementul faţă de 2. Fig. 2.40 şi 2.41 clasifică modul de operare al unităţilor 
pipeline de adunare şi înmulţire, prezentind totodată posibilele surse şi de- 
stinații ale operanzilor, cele două registre de intrare (Al, A2 sau M1, M2), 
operațiile parţiale executate în fiecare etaj al unităţilor pipeline și regis- 


Al. Zero DPx DPY TM FM Fa DPX DPr MD 2cro  A2 


| 
[a [a 


Auniere fracții 
aduncre 


Nivelul 1 


Bufer 


Normalizare 


~ Niy 
sı recifcu!a elu! 2 


MO A? M Dx DPY 


Fig. 2.40 Unitatea pipeline de adunare în două ctaje, de la FPS AP-120B. Se 

observă sursele posibile de operanzi şi destinațiile rezultatelor, cu notația din fig. 

„2.39. Între etaje se află bufere pentru memorarea rezultatelorin termediare. (Sche- 
ma furnizată de Floating Point Systems.) A 
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“rele tampon care păstrează rezultatele parţiale intermediare. AP-120B 
mu posedă un divizor hardware, de aceea împărţirea în virgulă mobilă 
se realizează software prin aproximare polinomială, 
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Fig. 2.41 Unitatea pipeline de inmulțire cu trei etaje, de la 
FPS AP-120B. Notaţia este cea folosită în fig. 2.39. (Schema 
furnizată de Floating Point Systems Inc.) 


Operațiile aritmetice în virgulă mobilă se execută în format pe 38 
biți (10 biți pentru exponent și 28 pentru mantisa în complement față de 2) 
Această reprezentare se face în domeniul 10:15, cu o precizie de 8 cifre 
zecimale. Precizia este semnificativ mai bună decit la IBM, unde se 
foloseşte formatul pe 32 biţi (10+78 şi șase cifre zecimale). Se folosesc şi 
cifre de siguranţă pentru a minimiza pierderea de precizie în cursul execu- 
ţiei operaţiilor aritmetice. Conversia numerelor între formatul folosit de 
calculatorul gazdă şi formatul intern al lui AP-120B are loc odată cu trans- 
ferul numerelor între cele două maşini. 

Operaţiile de intrare/ieșire se execută de un port de I/E (IOP) sau 
de un port general programabil (GIOP). IOP accesează memoria princi- 
pală a lui AP-120B prin „furturi” de cicluri şi realizează transferuri de 16 
sau 32 biţi. În interiorul calculatorului se realizează transferul datelor la 
viteza de 1,5 Mw/s, iar în exterior la 1,3 Mw/s. Portul pe 16 biţi este folosit 
ca intrare analog/digitală, ieşirea datelor la display şi alte periferice stan- 
dard. Portul pe 38 biţi conţine un sumator şi poate îi folosit pentru o multi- 
tudine de conversii format. Acest port poate îi folosit la conectarea între 
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două calculatoare AP-120B. IOP ocupă o placă logică și poate conecta pînă 
la, 256 dispozitive externe. GIOP este un canal de IJE programabil care 
poate realiza un tr ansfer continuu la viteza de 3 Mw/s cu posibilitatea con- 
versiei formatului „în zbor”, inclusiv din virgulă fixă î în virgulă mobilă. 
Conţine două. microprocesoare de 18 Mips și ocupă trei plăci logice. În mod 
obișnuit este folosit pentru interfațarea cu discuri, dispozitiv e de afişare î În 
timp real, camere video și alte calculatoare. i 

Arhitectura calculatorului AP-120B cu memoria de date standard 
de 64 K poate fi scrisă în notatie ASN (vezi $1.2.4): 


C(AP—120B)=—T1((Fp38(+), Fp33(*))z 
(PI, Mi-a, M2, M3, P2)], 

TI = (149 —M4) | 

P1(S-pad)=B;s—M;6,18 

Mi(memoria de date)=8{2M}f a (MOS)} 

M2(tabele) =M cax,se 

i3(X, Y data pads)=2M 2.38 

_Mi(program)= Mikusa( bipolar) 

P2(10P)=256D—I10,g—a 


2.5.3. Tehnologia 


AP-120B este proiectat să fie fiabil, de aceea s-au folosit numai compo- 
nente şi tehnologii bine verificate, la condiţii limită de funcţionare foarte 
clare. Ca rezultat, timpul mediu între două defecţiuni (mean time between 
failure -MTBF) este în mod obișnuit de la cîteva luni, la un an. Calculato- 
rul este construit cu circuite TTL Sehottky, cu un nivel de integrare ce 
variază de la cîteva porţi pe capsulă la cîteva sute. Timpul de propagare 
normal pentru o poartă este de 3—5 ns. Diverse registre interne folosesc 
aceeași tehnologie. Acestea. sînt registrele S-pad, data-pad, ca şi stiva cu 
adresele de revenire din subrutine. Memoria program cu timp de acces de 
50 ns, ca şi memoria pentru tabele cu timp de acces de 167 ns folosese 
circuite bipolare Schottky de 1 K, în timp ce memoria pentru date, mai 
mare şi mai lentă, foloseşte circuite. MOS de 4 K sau 16 K. -> 

Este interesant de comparat CRAY X-MP şi AP-120B din punctul 
de vedere al tehnologiei, vitezei şi consumului de putere, deoarece cele două 
calculatoare reprezintă două extreme opuse. CRAY X-MP foloseşte teh- 
nologie ECL de mare viteză, dar și cu un consum mare de putere, perioada 
ceasului fiind de 9,5 ns. De aici, necesitatea unui sistem de răcire cu freon, 
pentru disiparea unui total de 115 KW. Pe de altă parte, AP-120B folo- 


seşte tehnologie cu un consum redus de putere şi, în consecinţă, are peri- 
oada ceasului de 167 ns. Totuşi, puterea Metal consumată de 1,3 KW per- 
mite folosirea răcirii cu aer, 
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2:54, Setul de instrucțiuni 


AP-126B nu are instrucţiuni vectoriale per se. În fiecare perioadă de 
ceas se execută o instrucțiune de 64 biţi, care are cîmpuri de control 
pentru toate unităţile. Ca exemplu, dacă cimpul FM (vezi mai jos) care 
controlează unitatea pipeline de înmulţire este activat (bitul 51 al instruc- 
țiunii este 1), atunci toate datele aflate în acest pipeline sint deplasate la 
următorul etaj. Prin urmare, unitatea pipeline trebuie activată trei peri- 
oade de ceas pentru a impinge” o pereche de argumente prin cele trei 
etaje şi a obţine, astfel, un rezultat. Pentru fiecare element al unui vector, 
care ar urma, unitatea trebuie activată o perioadă de ceas. Cel mai proba- 
bil, acest proces se va realiza cu o buclă. În fig. 2.42 se prezintă formatul 
general al instrucţiunii. Notaţiile pentru sufsele şi destinațiile datelor 
corespund fig. 2.39. Descrierea completă a instrucţiunii se găseşte în AP- 
120B Processor Handbook (FPS 19763). Pentru a indica modul de operare 
al unei instrucţiuni, dăm în continuare citeva exemple de utilizare a cim- 
purilor de date: 

(1) grupul S-pad (controlează unitatea ALU ce efectuează calcule cu întregi 
pe 16 biţi şi registrele aferente) 

SOP specifică o operaţie S- -pad diadică, de exemplu, ADD, SUB, 
MOV, AND, OR, EQU1V ; operanzii sint registrele SPS şi SPD, iar rezal- 
tatul trece în SPD; 


nanan ala 2. D5725 > a] 


gi | COND z isp 


E aL AER 


s56 57 98 57 60 61 62 63 
2 Îm ma | m fea [oi 


| Grup memorie 


3? 3 34 35 3637 
lie 2PY | BPss 


| Grup data ped 


i Valoare 


Tig. 2.42 Cimpurile de date ale unci instrucțiuni pe 64 biți dela FPSAP-120B. 
Această instrucțiune controlează funcționarea tuturor unităților calculatorului la 
fiecare perioadă de ceas. (Diagrama furnizată de Floating Point Systems inc.) 


SPS numărul (pe 4 biți) al registrului sursă pe 16 biți; 

B dacă este 1, biții registrului sursă sînt inversați înaintea execuției 
operației; 

SPD numărul registrului destinaţiei pe 16 biți; 

SH specifică deplasarea simplă la stinga sau dreapta, sau deplasare 
dublă, la dreapta după calcul; 
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SOP1 specifică operaţii monadice cu datele din registrul SPD, cine 
SOP=0, de exemplu încrementare (+1), decrementare (—1) sau comple-- 
mentarea registrului SPD ; 

SPEO instrucțiuni de control, condiționale ' sau salt. 

(2) grupul peniru adunare în virgulă mobilă 

FADD specifică operații diadice, de exemplu FADD, FSUB; AND, 
OR, EQUIV cu date în Al şi A2. Rezultatele intermediare se 'depla— 
sează un segment prin pipeline pînă la următorul registru tampon; | 

Al sursa operandului ce se încarcă în primul registru de intrare î în 
sumator, de exemplu FM (ieşirea multiplicatorului), DPX, TM; 

A2 sursa operandului ce se încarcă în al doilea registru de intrare ; 

PADDI specifică operații monadice asupra datelor din A2 cînd FAD = 
=0, de exemplu convertește A2 în întreg, format semn-valoare absolută, 
sau complement faţă de 2; ia valoare absolută. 

(3) grupul de 1/E (controlează operaţiile de I/E și transfer cu magistralele), 
de exemplu : 

DPBS-SPD conținutul magistralei data-pad trece în S-pad 

DPBS-TMA conținutul magistralei data-pad se încarcă în registrul 
de adrese al memoriei cu tabele 
SPFN — PNLBS ieşirea S-pad conectată la magistrala panel; 

INTA acceptarea întreruperi ; adresa dispozitivului este plasată în 
DPBS. 

(4) grupul pentru efectuarea salturilor 

9; condiția pentru salt, de exemplu întotdeauna, pe condiţie, 
pe eroare aritmetică, revenire din subrutină, deci cînd FA sau SPFN=, 
4, >, > 0,0,; 

' DISP dacă se efectuează saltul, adresa următoare este adresa curentă. 
+DISP—16, salt relativ de la —16 la +15. 
(5) grupul data-pad (controlează transferurile cu data pads X şi Y) 

DPA adresa data-pad curentă; 

DPX încarcă data-pad X din DPBS, FA sau FM; 

DPY încarcă data-pad Y din DPBS, FA sau FM; 

DPBS selectează DPX, DPY, MD, SPFN sau TM pentru a de pune 
conținutul pe magistrala data-pad ; 

XR conținutul registrului data-pad cu adresa DPA--XR-4 este tri- 
mis în DPX ; 

YR conținutul registrului data-pad cu adresa DPA+YR-4 este trimis 
în DPY; 

XW DPX este transferat în registrul data-pad cu adresa DPA + 
XW-4; 

YW DPY este trimis în registrul data-pad cu adresa DPA+- YW-4. 
(6) grupul pentru înmulțire în virgulă mobilă 

FM înmulțire sau nici o operaţie. Rezultatele intermediare se depla-- 
sează un etaj prin pipeline pînă la următorul registru tampon ; 

M1 seîncarcă din FM, DPX, DPY sau TM; 

M2 se încarcă din FA, DPX, DPY sau MD. 

(7) grupul pentru memorie (controlează transferurile cu memoriile de date 
şi cu tabele) 

MI încarcă registrul de intrare în memorie din FA, FM sau DPBS; 
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MA incrementează sau descrementează registrul de adrese cu 1, sau 
citeşte din SPFN și iniţiază ciclu la memoria de date; , 


DPA  incrementează sau decrementează adresa de data-pad cu 1; sau 
ia adresa din SPEN; 
TMA ca şi DPA dar pentru memoria cu tabele. 


2.5.5. Software 


Soft-ul pentru AP-120B,  exceptind driver-ele, este scris în 
FORTRAN, astfel că poate fi compilat pe diverse calculatoare gazdă. 
Poate fi împărţit în următoarele categorii : 

-(1) sistem de operare; 

(2) soft de dezvoltare programe; 

(3) biblioteci de aplicaţii. 

Sistemul de operare constă dintr-un executiv APEX şi un set de ru- 
tine de diagnoză APTEST. Executivul controlează transferul datelor între 
gazdă şi AP-120B, transferă programele AP de la gazdă în memoria de 
programe sursă AP (PS) şi inițiază execuţia programelor AP. Fig. 2.43 
ilustrează modul de operare al APEX. Cele mai multe programe utilizator 
sint în FORTRAN şi pot apela fie biblioteca matematică AP-120B, fie 
subrutinele scrise de utilizator cu instrucţiuni AP-120B,pentru a manipula 
masivele .Şi APEX este o subrutină inclusă în programul FORTRAN 
compilat și executat pe calculatorul gazdă. Conţine un tabel cu adresele 
şi conținutul rutinelor AP deja încărcate în memoria de program sursă AP. 
Instrucţiunile AP-120B ale fiecărei subrutine sînt memorate în memoria 
calculatorului gazdă. Presupunind că s-au apelat deja subrutinele 1 şi 2, 
la execuția programului FORTRAN au loc următoarele evenimente : 

(1) programul FORTRAN apelează AP cu rutina (VADD); 

(2) rutina 3 apelează APEX; 

(3) se caută în tabelul memoriei PS; rutina 3 nu este găsită; 

(4) APEX transferă instrucţiunile AP-120B de la gazdă la memoria 
PS; 

(5) se actualizează tabelul din memoria PS; 

(6) APEX iniţiază execuţia rutinei 3 în AP- 120B. 

Datele se transferă de la calculatorul gazdă la AP-120B prin apelul 
subrutinei APPUT, iar rezultatele se obţin cu subrutina APGET. Ambele 
subrutine apelează APEX pentru controlul transferului. Odată începută 
execuția unui program pe AP, APEX redă controlul programului FOR- 
TRAN apelant, care poate continua pe calculatorul gazdă execuția altor 
calcule, care nu folosesc AP. Dacă se întilnește un apel de subrutină AP, 
înaintea terminării celei anterioare, APEX va aştepta terminarea acesteia. 

Sofi-ul de dezvoltare constă din : 

(1) Biblioteca matematică — peste 250 subrutine FORTRAN pentru ope- 
raţii cu masive. Subrutinele, scrise în limbaj de asamblare, sint atent 
optimizate. Iată citeva exemple: 

VADD, VMUL adunare, respectiv înmulţire element-cu-element ; 

SVE, DOTPR suma, respectiv produsul elementelor vectorului; 

MMUL, MATINV înmulţirea şi inversarea matricelor; 

CFFT, ACORT transformata Fourier rapidă complexă și auto corelația. 
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În plus, există biblioteca matematică avansată care conţine rutine 
pentru generarea de funcţii, căutare binară, tridiagonalitate, diagonalizare 
rezolvarea, sistemelor de ecuaţii reale sau complexe rare, rezolvarea ecuaţii: 
lor diferenţiale ordinare prin integrare Runge-Kutta. 


Memorie gazdă Memoria program ` 
sursă APROB 
[FORTRAN 


program apelant 


Rutina 1 
instructiuni 


Rutina? 
instructiuni 


m | 


Í Disponibil 3 


5) ay 


! Rutina 1 ti 


Fig. 2.43 Diagrama ce prezintă modul de acţiune al executivului 

APEN, în cursul execuției unui program (furnizată de Floating Point 

Systems Inc.), Atit instrucțiunile cit și datele sint transferate intre 
calculatorul gazdă și AP-120B, sub controlul lui APEX. 


(2) APAL asamblorul care asamblează, programe pe calculatorul gazdă 

pentru a fi executate pe AP, 

(3) APLOAD — Teagă modulele obiect APAL separate într-un singur mo- 

dul ce poate fi executat pe'AP. 

(4) APSIM, APDBUG — simulează un program AP si permite depanarea, 

pe gazdă sau, respectiv, AP. 

(5) VFO — înlănţuie funcții vectoriale. 'Transformă apelurile multiple 

la biblioteca matematică într-un singur apel, reducind astfel overhead-ul. 

(6) FORTRAN AP — un compilator ce se execută pe calculatorul gazdă, 

acceptind FORTRAN IV, şi produce cod direct executabil pe AP. 
Soft-ul amintit permite pregătirea programelor într-o multitudine 

de moduri. Pentru scăderea vitezei de execuţie și creșterea ușurinței de 

pregătire, se folosesc: asamblorul APAL, FFC, rutinele matemastiee şi. 

FORTRAN AP. i 
Bibliotecile de aplicaţii disponibile sînt: , 

(1) SIGLIB — biblioteca pentru prelucrarea semnalelor cu putine pen- 

tru histograme, corelaţii, funcţii de transfer şi coerență ete. 

(2) IMP — biblioteca pentru prelucrarea imaginilor cu rutine pentru 

transformata Fourier rapidă 2D, convoluţii, filtrare etc, 

( ) AMLIB — biblioteca matematică avansată cu rutine pentau generarea 

de funcţii, integrare Runge-Kutia, rezolvarea matricelor rare şi calculul 

vectorilor proprii. . 
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2.5.6. Performanţa 


AP-120B nu posedă ceas de timp real, de aceea este imposibil să se 
evalueze cu acuratețe timpii de execuţie ai programelor. Folosirea ceasului 
calculatorului gazdă nu oferă o măsură precisă datorită, sistemului de 
operare al calculatorului gazdă. De aceea, pentru evaluarea performanței 
sintem obligaţi să folosim formulele furnizate în biblioteca matematică, 
Datele (FPS 1976 b) pe care le folosim corespund unor formule de calcul 
al timpului care pot fi legate direct de formula (1.4a), care defineşte ra și 
Di2- Diferenţele minore ce apar în mat ‘riale ulterioare (FPS 1979a, b) 
sint lipsite de importanță. Datorită naturii sincrone & acestor mașini, 
formulele teoretice af trebui să fie valabile; totuşi, absenţa unui ceas 
face optimizarea programelcr mari foarte dificilă. Evaluarea timpilor de 
execuţie devine în acest caz plicticoasă și supusă erorilor. O alternativă 
este de a simula execuţia unui program AP pe calculatorul gazdă folosind 
programul APSIM (vezi $2.5.5). Acest program furnizează timpul de execu- 
ţie teoretic dar, din nou, nu poate fi folosit la evaluarea programelor mari, 
deoarece se execută de aproximativ 1000 ori mai lent decit programul 
propriu-zis pe AP-120B. 

Folosind documentaţia bibliotecii matematice (FPS 19:6b) vom pre- 
zenta formulele pentru o serie de operaţii vectoriale simple, de unde vom 
estima valori probabile pentru n, 2 şi r». Stabilim formula. pentru memoria 
standard (timp de acces 500 ns) şi dăm valorile îmbunătăţite ale lui ro 
pentru memoria rapidă (timp de acces 333 ns) în paranteze. Unde există 
o variaţie mică datorită alegerii pentru vectori a unor locaţii pare sau im- 
pare, am considerat timpul minim. Nici una din aceste alternative nu 
modifică substanțial caracterul maşinii şi, de aceca, pot fi ignorate. 
(1) deplasare vector CALL VMOV (A, I, C, K, N) 


Cre Am, m = 6, l, .. N-1l 
Deplasarea vectorului A în C, în memorie. K și I sînt incremenţii între 
elementele succesive ale lui A, P C. Pentru N operaţii timpul este : 
= — 2 N + 1)us, 
3 
de aici, 
= 1,5 (3,0) Mop/s, nız = 1 


Observăm c că această we este cu restricție de memorie şi că viteza de 
transfer se dublează la memoria rapidă. Oricum, n, nu este afectat de 
tipul memoriei. 

(2) adunare vectorială CALL VADB (A, I, B, J, €. K, N) 


Care- Bay + Amr m = 0, l; „r. „N—l 
Timpul este pentru N operaţii 


t= Aa lus 
prin urmare, 
d, To = }(2) Mflop/ S, Dup =1 
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(3) înmulţire vectorială CALL VMUL (A, I, B, J, C, K, N) 
i Car +- Bay + Åm m = 0,1, . . «„N-1 
Timpul de execuție pentru N operații este 
. t=N+2 us 
deci, 
ro = 1(2) Mflop/s, ni = 2 
(4) împărțire vectorială CALL VDIV (A, I, B, J, C, K, N). 
Car = Bay/ Amr m a 0,1, .. „N—1 
Pentru N operaţii 
t = 1,83(N + 3)us 
deci, 
Ta = 0,53(0;,55) Mflop/s, nj; = 3 
şi observăm că, deoarece operaţia este dominată de calcule aritmetice, 


memoria mai rapidă nu determină creşterea performanţei. 
(5) exponent vectorial CALL VEXP (A, I, C, K, N) 

Ca CXD(Amr), m = 0,1, ...N-1 
Pentru N exponenţiale, 
t = 4,87(X + 0,3) us 
deci, a 
ræ = 0,2 Mflop/s, ni = 0,3 
(6) produsul CALL DOTPR (A, I, B, J, C, N) 


0$ A 

- +B 
a mI mJ 
Pentru efectuarea a 2N operații 


t= (N+ 2)ps 


deci, 
Ta = 3(6) Mflop/s, n; = 2 


Timpii de execuție şi performanţele selectate, care pot fi considerate 
tipice pentru operaţiile vectoriale de tipul memorie-la-memorie, arată că 
în cazul acestor operații se poate realiza numai o fracţie mică din per- 
formanţa potenţială de 12 Mflop/s. Cauza este lărgimea de bandă a accesu- 
lui la memorie insuficientă pentru a susţine o viteză de calcul de valoare 
mare. O operaţie vectorială simplă are, deci, operanzi vectoriali şi produce 
un vector rezultat. Prin urmare, o viteză de calcul de 12 Mflop/s necesită 
o lărgime de bandă de 36 Mw/s. Lărgimea de bandă a memoriei standard 
variază între 2 şi 3 Mw/s, funcţie de condiţia dacă toate referințele sint la 
acelaşi bloc sau alternează între blocuri diferite de memorie. Memoria ra- 
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pidä are lărgimea de bandă între 3 şi 6 Mw/s. Astfel, este evident că lărgi- 
mea de bandă este aproximativ 1/10 din cea necesară atit la adunare, cît 
şi înmulţire, cînd datele se află în memoria principală. 

Deci, restricţia care împiedică atingerea unor viteze de prelucrare mari 
de către AP-120B este lărgimea de bandă mică a accesului la memorie. 
Pentru a evita ca aceasta să devină o strangulare, este necesar ca intensi- 
tatea calculelor (vezi p. 106), f, să fie de cel puţin 2 operaţii în virgulă 
mobilă pe referinţă la memorie (flop/ref) în cazul memoriei rapide, sau 
cel puţin 4 flop/ref în cazul memoriei standard. Aceste condiţii sînt în- 
deplinite pentru algoritmi mult mai complecși și dimensiuni, n, suficient 
de mari ale problemelor ; de exemplu, înmulţirea matricelor, f = 2n/3 
îlop/ref ; transformata Fourier rapidă (FFT), f = 1,25 logn flop/ref. 

Este bine să examinăm mai în detaliu algoritmul FFT, deoarece este 
algoritmul principal pe care îl execută maşini ca AP-120B. Pe tot parcursul 
algoritmului, operaţiile sint de tipul fluture” (vezi ecuația (5.87)): 


e =a + wb (2.17a) 
d = a — wb (2:17b) 


unde a şi b sînt elemente complexe aflate în memorie, iar c și d sînt rezul- 
tate complexe ce urmează să fie scrise în memorie. Constanta complexă 
w poate să se afle într-un registru .Ecuaţia (2.17) necesită o înmulţire com- 
plexă (s = w=+b) şi două adunări complexe (a + s, a — s) pentru 4 refe- 
rinţe la memorie. Este echivalentul a 10 operaţii aritmetice reale pentru 
8 referințe la memorie pentru numere reale, deci f = 1,25 flop/ref. Con- 
sideraţiile precedente sînt valabile pentru baza 2 și arată că acest; algoritm 
nu are o inţensitate a calculelor suficient de mare pentru a menține unită- 
tile aritmetice pipeline ocupate. Prin combinarea a 2 nivele FFT, obţinem 
algoritmul în baza 4 şi o creștere a intensității calculelor la 2,5 îlop/ref, 
care satisface condiţiile enunțate pentru memoria rapidă. Subrutina CFFT 
din biblioteca matematică foloseşte acest ultim algoritm pentru care se 
atinge performanța de 8 Mflop/s. 

Valorile lungimii pertormanţei-jumătate se află în domeniul 1—3, 
ceea ce arată că AP-120B, deşi are multe caracteristici de paralelism, 
se comportă foarte asemănător cu un calculator serial. Din acest punct 
de vedere, calculatorul este similar lui CRAY-1 (n, 10) și destul de dife- 
rit de CYBER 205 (na 2100), sau ICL DAP (n; 21000). Alegerea celui 
mai bun algoritm se face pe baza lui n, (vezi capitolul 5) și ne putem 
aştepta ea algoritmi optimizaţi pentru un calculator serial să furnizeze 
performanțe bune și pe AP-120B. Oricum, aşa cum s-a accentuat, per- 
formanța unui program poate depinde mai mult de gestiunea referințelor 
la memorie, decit de lungimea vectorului de care ţine cont n,p. 
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2.5.7. FPS-164 (redenumit M140 și M30) şi 264 (redenumit M60) 


Așa cum se poate vedea în fig. 2.44, FPS-164 este substanţial 
mai mare decit AP-120B, avind o înălțime de aproximativ 1,65 m și ocu- 
pind o suprafaţă de 0,75 x2,1 m?, în special datorită memoriei mai mari. 
Pentru FPS-164/MAX și FPS-264 se foloseşte acelaşi cabinet. Principalele 
îmbunătăţiri introduse la FPS-264 (în comparaţie cu AP-120B) sint; 
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(a) aritmetica în virgulă mobilă pe 64 biţi, în comparaţie cu 38; 

(b) aritmetica numerelor întregi pe 32 biţi, în comparaţie cu 16; 

(e) adrese pe 24 biţi pentru maximun 16 Mw în comparaţie cu adre- 
sarea a numai 64 Kw cu 16 biţi; 

(d) registrele X- şi Y-pad pe 64 biți în comparaţie cu 32; 

(e) 64 registre de adrese S-pad pe 32 biți in comparaţie cu 16 pe 16 
biţi : 

(£) cache pentru i024 instrucţiuni pe 64 biţi care înlocuieşte memoria 
program ; 

(g) stiva formată din 256 registre pe 32 biţi pentru adresele de revenire 
din subrutine ; s 

(n) memoria centrală expandabilă de la 0,25 la 7,25 Mw, cu pro- 
tecţie; 

ie memorie pentru tabele de 32 Kw RAM; 

(j) un ceas pentru evaluarea timpilor de execuție a programelor — 
care din păcate nu există la AP-120B. 

Creşterea preciziei operațiilor aritmetice ṣi a domeniului de adresare 
deplasează clasificarea acestui ca'culator din domeniul miniealeulatoarelor 
în €el al calculatoarelor mari curente, Modul cum se regăsesc aceste aspecte 
în arhitectură se poate vedea în fig. 2.45. Spre deosebire de AP-120B, 


Fig. 2.44 Calculatorul FPS-164 


atât instrucțiunile cât si datele se află în memoria centrală, cind este nece- 
sar instrucțiunile fiind încă cate în memoria cache. Prin urmare, aceasta 
înlceuieşte memoria: separată pentru programe de la AP-120B. La FPS-164 
apelul subrutinelor se tace mai eficient prin includerea stivei pentru sub- 
rutine, care poate memora pină la 256 adrese de revenire pe 32 biţi. 
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Memoria pentru tabele, denumită și memoria auxiliară, a devenit o memo- 
rie R/W, folosită ca registre temporare pentru rezultatele intermediare. 
Totuși, primii 8 K ai acestei memorii sînt rezervaţi pentru constante care 
unmai se citesc, din care 5 K sint pre-înserişi, iar următorii 16 K sau 32 
K (funcţie de opţiune) pot fi folosiți de programele utilizator. Memoria 
principală este organizată în module, fiecare cu blecuri de memorie pare 


Calcule er | 
gazdă 


ze |! 
al i) 
"54 biti I| 


Unitatea da 
calcul a 


Fig. 2.45 Arhitectura calculatorului FPS-164. 


şi impare, ca la AP-120B. Varianta FPS-164 iniţială a folosit circuite 
NMOS dinamice de 16 Kb, cele 12 module de memorie ceupîind 24 plăci 
logice (fiecare placă un blee), obţinîndu-se un total de 1,5 Mw. Utilizarea 
ulterioară a circuitelor de memorie de 64 Kb a permis creşterea capacităţii 
memoriei la 7,25 Mw. Memoria principală lucrează ca un pipeline cu trei 
etaje, cererile succesive la același blce avind posibilitatea de a interveni 
la fiecare perioadă de ceas. Deoarece memoria pentru tabele luorează ca 
un pipeline cu două etaje, cererile succesive pot interveni în cursul cicluri- 
lor de o2as succesive. O nouă caracteristică a memoriei este maparea şi 
protecţia. În aceste condiții, conținuturile registrului MDBASE se 
adună la adresa depusă pe linia MA (vezi fig. 2.39), formînd o adresă 
izică. Dacă aceasta depăşeşte conținuturile registrului MDLIMIT, nu va 
avea lcc nici un acces la memorie : o citire produce zerouri, iar scrierea, 
este ignorată, g 
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FPS-16P. are perioada nominală a ceasului de 167 ns, ca AP-120B. 
De fapt, perioada reală a ceasului este ceva mai mare, de 182 ns, ceea ce 
conduce la o viteză asimptotică de 11 Mflop/s. Maşina mai are un ceas de 
timp real programabil şi un timer CPU care se incrementează la fiecare 
perioadă de ceas. Acestea permit o evaluare corectă a timpilor de execuţie 
pentru program. le utilizator. 

Performanța aritmetică teoretică este de 11/12 din valoarea teoretică, 
furnizată pentru AP-120B. Timer-ul CPU permite evaluarea programelor 
de test cu acuratețe, noi citind rezultatele obținute de Thompson (comuni- 
care personală). În tab. 2.8 se prezintă rezultatul testului (ro, D1/2) pen- 
tru operaţii aritmetice memorie-la-memorie. Se compară rezultatele codu- 
lui FORTRAN pur (valoarea superioară a perechii) cu cele ale rutinelor 
optimizate din biblioteca matematică. Așa cum ne așteptăm din evaluă- 
su teoretice de la AP-120B, operaţiile diadice se execută, cu aproximativ 

1 Mflop/s. Exceptind operaţia de adunare, nu este nimic care să reco- 
mande utilizarea rutinelor din bibliotecă, deoarece aceași. performanţă 
se obține cu FORTRAN, eliminindu-se totodată overhead-ul, cum se poate 
vedea din valorile mai mici ale lui n, p. Execuţia, unei operaţii diadice este 
situaţia cea mai defavorabilă pentru performanţă, deoarece nu există nici 
o posibilitate de a memora rezultate intermediare în registrele cu acces 
rapid, iar numărul operaţiilor în virgulă mobilă pe referință la memorie, 
f, este de numai 1/3. Ultimele: două cazuri al triadei şi al celor 3 operații 


Tabelul 2.8. Rezultatele testului (ro; n1/2) pentru un FPS-164 care execută operații cu date aflate în 
memorie. Literele mari notează vectori, literele mici scalari (Date puse la dispoziţie de Bill 
. Thompson- TUCC). 


Operația : Too i 

instrucţiunea 10 program (1. 5). (Milop/s) 1/2 
A=B-+C 0,88 5 
CALL VADD 1,06 16 
A=BxC 1,07 5 
CALL VMUL 1,04 17 
A = BJC 0,30 7 
A = bx (C — D) 
oOPTC=1 0,8 — 
OPTC=3 3,4 — 
A=B+Cx(D E) 
OPTC = 1 ` 1,0 
OPTC= 3 3,2 — 


ridică valoarea lui f la 2/3, respectiv 3/4. Cu nivelul de optimizare al com- 
pilatorului (OPTC) egal cu unu, acesta executind numai optimizare locală, 
se obține o performanţă diadică de aproximativ 1 Mflop/s. Dacă OPTC=3, 
cînd se foloseşte conceptul software de pipelining prin care se suprapun 
operaţiile executate, performanţa creşte de trei ori. 

În tab. 2.9 se prezintă performanţele unor teste mai importante, 
buclele Livermore şi LINPACK. În FT. performanța asociată unei 
probleme obişnuite se situează între p şi 5 Mflop/s, funcție de atenția 
acordată programării problemei. 
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FPS-264 este o versiune în tehnologie ECL a arhitecturii FPS-164, 
care permite reducerea perioadei ceasului de la 182 ns la 53 ns, un raport 
de 3,4. Alte îmbunătăţiri ale memoriei cache şi a memoriei centrale au 
condus la o creştere a performanţei de 4 pînă la 5 ori faţă de FPS-164. 
Se folosesc circuite ECL de 100 K produse de Fairchild (faţă de Schottky 
TTL la FP3-164), iar memoria centrală foloseşte capsule NMOS static de 
64 Kb (în comparaţie cu NMOS dinamic la FPS-164). O placă de memorie 
conţine 0,5 Mw, împărţite în două blocuri. La prima mașină memoria 
centrală maximă era de 4,5 Mw împărţite în 18 blocuri. Memoria cache de 
8 Kw este formată din două blocuri întreţesute de 4 Kw, în comparaţie 
cu cea de 1 Kw de la FPS-164. 


2.5.8. FPS-164/MAX (redenumit M145) 


În anul 1984 s-a anunţat o nouă versiune a calculatorului FPS-164, 
TPS-164/MAX, care înseamnă accelerator pentru algebra matricială, 
(Charlesworth şi Gustafson 1986). Această maşină are un FPS-164 ca mas- 
ter, la care se pot adăuga pină la 15 plăci MAX, fiecare echivalentă cu 
2 CPU 164, fiecare unitate centrală avind suplimentar 4 registre vectoriale 
a 2048 elemente. În total, se obține echivalentul a 31 CPU 164 sau 341 
Mflop/s. 

Arhitectura plăcii MAX este prezentată în fig. 2.46.. Placa are două 
CPU, fiecare cu un multiplicator pipeline pe 64 biţi, cu 8 etaje, care 
trimite rezultatele produse într-un sumator în virgulă mobilă cu 8 etaje. 
O intrare a fiecărui multiplicator (şi există trei multiplicatoare pe cele 15 
plăci) este alimentată de memoria centrală, în timp ce cealaltă primeşte 
datele de la registre scalare sau vectoriale locale plăcii. În mod similar, 
a doua intrare în sumator este alimentată de registre locale. În modul 
emisie (broadcast), acelaşi număr este trimis simultan din memoria centrală, 
tuturor multiplicatorilor. Perioada ceasului este aceeași ca la FPS-164, 
adică 182 ns, de unde performanța maximă a fiecărei plăci de 22 Mflop/s. 
FPS-164/MAX foloseşte tehnologie VLSI CMOS, în timp ce unităţile arit- 
metice pipeline (prezentate în fig. 2.47) folosesc circuitele WEITEK. 

Plăcile MAX ocupă poziţii de plăci de memorie şi este posibil să se 
facă dintr-un FPS-164 un FPS-164/MAX. Plăcile MAX sînt văzute de 
calculatorul gazdă ca ultimul Mw de spaţiu de adresare din cei 16 Mw, 
lăsînd o capacitate de memorie normală maxim adresabilă de 15 Mw. FPS- 
164/MAX foloseşte aceeași placă de memorie ca şi FPS-264, cu 0,5 Mw., 
Un FPS-164/MAX complet are 29 poziţii pentru plăci de memorie, din 
care 14 sint folosite pentru cele 7 Mw de memorie fizică, iar 15 pentru 
cele 15 plăci MAX. Disponibilitatea circuitelor NMOS statie de 256 Kb 
va permite realizarea unei capacităţi de 1 Mw pe placă, ceea ce ar con- 
duce la creşterea capacităţii centrale la 15 Mw, maximum adresabil. 

Ideea plăcii MAX este de a creşte viteza operaţiilor aritmetice prin 
încuibărirea a 2 sau 3 bucle DO, situaţie frecventă la operațiile cu matrici, 
în particular la înmulţirea matricelor. În acest exemplu, cele 31 CP 
164 ale unui sistem complet ar fi folosite simultan pentru calculul a 31 
produse interioare necesare pentru producerea a 31 elemente ale unei co- 
loane a matricii produs. Arhitectura FPS este deja optimizată pentru 
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Tabelul 2.9. Performanţele calculatoarelor FPS-164, 264 și FPS-164/MAX pentru citeva teste 
Livermore şi LINPACK. Valorile reprezintă Mflop/s pentru numere pe 64 bipi. 


Problema FPS-164 | FPS-264 FPS-164/MAX 
pe eee CNN OV i ay N E Se a i i RI CO RN a e NI | Re e E ROI, 
maximă — — 99(4 

11 38 341(15) 
(ro, 11/2) (1,07 ; 5) — g 


FORTRAN $ 1.3.3 
Livermore 3 

produs interior 
Livermore 6 

tridiagonal 
Livermore 14 

analiza parliculelor 
LINPA CICA 

FORTRANb 

n = 100 f 
Asamblor€ — _ (6,1) 
bucla interioară i i 
n = 100 2,9 . 10 20(15 
Matrice-vectord — — 150) 
cel mai bun asamblor 26(4) 
n = 300 8,7 33 — 


3,0° a za 
1,1° 5 = 


Performanţa teoretică — — 33(1) 
1,5€ — — 

] 

| 


Note á 

a Rezolvarea ecuaţiei liniare cu DGEFA şi DGESL pentru matrice de ordinul 100 (Don- 
garra el al 1979). 

.b Toate cod FORTRAN (Dongarra 1985). 

c Rutine BLAS optimizate în asamblor. (Dongarra 1985). 

d Metoda matrice-vector în FORTRAN, de Dongarra şi Eisenstat(1984).Matrice de ordinu} 
300. Asamblorul cel mai bun (Dongarra 1985). 

e Gustafson 1985. 

f Numărul de plăci ÎMAN este trecut în paranteze. 

g FPS 1985 b. 

h Dongarra 1986. 


calculul eficient al produselor interioare, iar singura problemă este asi- 
gurarea că datele necesare sînt disponibile unităţilor pipeline. Un registru 
vectorial din fiecare CPU primeşte una din cele 31 linii ale primei matrici, 
în timp ce elementele coloanei celei de-a doua matrici sînt emise (modul 
broadcast), unul cite unul, tuturor unităţilor centrale unde se acumulează 
cele 31 produse interioare, ca în fig. 2.48. Se produc 31 elemente în 
coloana respectivă a matricei rezultat. Se pot calcula toate celelalte co- 
loane pentru aceleaşi 31 linii, fără modificarea conținutului registrelor vec- 
toriajle, numai în acest mod de minimizare a transferurilor de date fiind 
posibilă atingerea performanţei maxime de către FPS-164/MAX. Din feri- 
cire, multe probleme de algebră. liniară (rezolvarea; de ecuaţii, calculul va- 
valorilor proprii ete.) pot fi formulate pentru satisfacerea acestei condiţii. 
La acest nivel al calculului matricei produs, s-au calculat 31 linii, Acum, 
registrele vectoriale trebuie încărcate pentru calculul următoareler 31 
linii, pînă ce calculul matricei produs se încheie. 
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Emisie la locate plăci 
Date matriciale sa: 


Arhitectura plăcii acceleratorului ma 


Fig. 2.47 O placă MAN. 


- Nucleul algoritmului anterior este produsul matricii A (31X2048) 
cu matricea B (2043x2048) pentru a produce matricea C (31 x2048), 
Presupunem că inițial C este ştearsă şi transferată în memoria centrală 
după execuţia următorului cod: 

DO 1 J = 1,2048 


DO 1 K = 1,2048 : (2. 18) 
DO 1 I=1,31 i 
1 CU, J) = CU, J) + AU, K)»B(K, J) 


unde I este numărul unității centrale. 

Bucla DO-I este implementară prin transmiterea cantităţii scalare 
B(K, J) tuturor celor 31 CPU, înmulțirea ei cu A(I, K) care este un 
element luat din vectorul local A, şi acumularea produsului: interior în 
O(I, J) care este preluat de vectorul local C,. În aceste operaţii toate cele 
31 CPU lucrează sineron (lock-step), dar cu datele lor individuale (I este 
numărul de ordine al CPU), cu alte cuvinte controlul este de tip SIMD. 
Bucla DO-K acumulează produsul interior, iar bucla DO-J deplasează 
coloană cu coloană. Toate cele trei bucle din (2.18) pot fi executate fără 
a se transfera date între memoria centrală şi registrele de pe plăcile MAX, 
condiţia esenţială a utilizării lor eficiente. Se poate spune că pentru atinge- 
rea vitezei maxime, datele trebuie refolosite atit în spaţiu cît şi timp. 


e Plăci MAX 


Memorie principală 
0.25— 7.25M 
64 -biti 


Vector y B 


Gazdă 
„FPS-154 


Fig. 2.48 Calculul simultan a 31 de produse interioare. (AB i=1,31) 

folosind 31 plăci MAX. Elementele lui B sint transmise unul cite unul 

tuturor plăcilor, fiecare placă acumulind două produse interioare 
(Si = Si + Arx * Bey k = 1, 2048). 
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Reutilizarea în spaţiu se referă la transmiterea unei singure cantităţi 
B(K, J) simultan celor 31 CPU, în bucla DO-I, iar reutilizarea, în timp se 
referă la faptul că C(I, J) și AQ, K) sînt continuu reutilizate din memoria 
locală în buclele DO-K și DO-J. 

Scopul facilităţii de reutilizare este de a limita necesarul de transfe- 
ruri între memoria centrală, şi plăcile MAX si de a executa numărul 
maxim de operaţii aritmetice între astfel de transferuri, pentru a micşora 
penalitatea, încărcării registrelor. Am exprimat anterior acest fenomen 
prin intensitatea; calculelor, f, care este numărul de operaţii în virgulă 
mobilă pe referință la memorie. În exemplul anterior al înmulţirii matrice- 
lor, expresia 1 conţine două operaţii aritmetice, iar referinţele sînt citirea 
lui A gi B şi memorarea lui €. Astfel, 


f = (2 x31 X 2048 x 2048)/(2110 x 2048) = 60 (2.19) 


Această valoare poate fi comparată cu parametrul hardware (f./2 care este 
jumătate din raportul performanţei aritmetice asimptotice la lărgimea de 
bandă.a memoriei în cazul relevant al suprapunerii transferurilor la memorie 
care are loc la FPS-164 (vezi $1.3.6 și ecuaţia (1.20)). Lărgimea de bandă 
a accesului la, memorie, r2, este, pentru plăcile MAX de un cuvînt într-o 
perioadă, iar r% de 62 operaţii aritmetice într-o perioadă, de aici 


fiz = 31 (2.20) 
Performanţa medie poate fi estimată din (1.22b) ca 
fa = r% Knee (0,5/f,p2) x = fff (2.212) 
de unde i | 
ă x = 1,9 ra = 0,97r3 (2.21b) 


Astfel, găsim că atunci cînd condiţiile de reutilizare în spaţiu şi timp sînt 
satisfăcute, este posibilă atingerea unei permana în limita de 3% 
față de cea maximă. 

Plăcile MAX pot executa numai un număr limitat de instrucţiuni de 
tipul celei din tâb. 2.10. Plăcile MAX și registrele lor sint mapate în me- 
morie, în ultimul Mw din cei 16 Mw de memorie adresabilă, așa cum s-a 
arătat în fig. 2.49. Cu alte cuvinte, plăcile sînt folosite prin scrieri şi citiri 
din zonele corespunzătoare ale ultimului Nw de spaţiu de adrese. Acest 


Tabelul 2.10 Imsteueţiunile care pot îi executate de o placă MAX și performanţa maximă în Milop;s 
pentru 1 şi 15 plăci. Aceleași valori se obţin atit pentru operaţii cu numere reale. cit și complexe 
Operaţiile vectoriale totale folosesc J(I) = I. 


iM 

Nume linie de program FORTRAN | = placi | a 
Produs scalar S = $ + AQ) BUU)) 22 341 
Produs scalar complex S= S + A(0) x BO) 22 341 
VSMA A(J(1)) = S x BUI()) + C(I) 11 167 
VMSA A(J(1)) = BUI(D) x C(1) + S 11 167 
Înmulțire vectorială A(J(1)) = BU) x C(J(1)) 5,5 83 
Adunare vectorială A(JX(I)) = B+ CD). 5,5 | 83 


spaţiu este împărţit în 16 zone MAX de 64 Kw fiecare. Primele 15 cores- 
pund celor 15 plăci MAX, în timp ce ultimul este segmentul de emisie 
care lucrează simultan cu toate plăcile. Primii 32 Kw de memorie reprezintă 


Overal! 


i Memorie | 


[Registru _vactoriat 0 


Fig. 2.49 Organizarea memoriei plăcilor MAX in spaţiul de adresare de 16 Mw 
al unui FPS-164. 


8 registre vectoriale a 4 K elemente fiecare. Prima implementare MAX 
limitează lungimea vectorului la 2 K elemente. Urmează 8 registre scalare 
și registrele vectoriale de index. Placa MAX funcționează prin plasarea 
cuvintelor corespunzătoare in secţiunea de „avansare in pipe”. 


Natura programelor disponibile pe FPS-164/MAX poate fi înțeleasă 


din următorul cod FORTRAN care realizează inmulţirea matricială dis- 
cutată anterior : 


CALL SYSSAVAILMAX(NUMMAX) 
MANVEC=8*NUMMAX + 4 i 


MVEC, N— 141) (2.22) 
IF(NUMVEC.LE. ü) GOTO 10 ; 
CALL (PLOADD{A(L 1), N, 1, NUMYEC, ITMA, 1, IERR) 

DO 20 J =1N 

CALL PDOT(B(, J), 1, N, C(I, J} 1, NUMVEC, IMA, 1,0, IERR) 

20 CONTINUE 

10 CONTINUE 


Performanţa maximă se obține prin folosirea mai multor registre vecto- 
riale. Prima instrucțiune permite obținerea în NUMMAS a numărului 
de plăci MAX instalate în sistem Deoarece fiecare conţine 8 registre vecto- 
riale, iar calculatorul gazdă FPS-164 are 4 registre vectoriale, NUMVEC 
va fi numărul registrelor vectoriale. Bucla DO-1 încarcă NUMVEC linii 
ale matricei A în registrele vectoriale, pregătind acumularea a NUMVEC 
produse interioare. CALL PDOT formează produşele interioare ale liniei 
J, proces repetat pentru toate liniile de către bucla DO-J. 


2.5.9. IBM ICAP și sistemul Cornell 


Atît IBM cît şi Universitatea Cornell dezvoltă sisteme MIMD cons- 
truite prin conectarea impreună a mai multor procesoare FPS. Masivele 
de procesoare slab conectate IBM (ICAP), produsul ideilor lui Enrico Cle- 
menti, este instalat la laboratorul IBM Kingston. În 1985 s-a instalat o 
configurație similară la IBM Scientific Center din Roma, cu scopul reali- 
zării unui prim nucleu de calcul al noului „European Center for Scientific 
and Engineering Computing” (ECSEC). 

În fig. 2.50 este reprezentat schematic IBM ICAP, 10 calculatoare 
FPS-164, fiecare cu 4 MB de memorie centrală, sînt conectate prin canale 
de 2—3 MB/s la calculatoare gazdă IBM (Berney 1984). 7 sînt legate la 
un IBM 4381 şi sînt dedicate calculelor propriu-zise, iar 3 conectate la un 
IBM 4341 sint folosite pentru dezvoltarea programelor, deși toate 10 pot fi 
conectate la IBM 4381 pentru a realiza un sistem cu performanţa teore- 
tică maximă de 110 Mtlop/s. Performanța; obținută la rezolvarea unor pro- 
bleme de chimie, în cazul configurației cu 10 FPS-164, este aproximativ 
aceeaşi cu cea de la CRAY-1$, de aproximativ 60 Mflop/s (Clementi et 
al 1984). Îmbunătăţiri posibile ale configurației inițiale constau în adăuga- 
rea a două plăci MAX celor 10 FPS-164, ceea ce ar permite atingerea a 
550 Mflop/s. Dacă fiecărui FPS 164 i s-ar adăuga 15 plăci MAX, perfor- 
manta ar putea atinge 3,4 Gflop/s. 


İBM 4381. IBM 4341 
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Fig. 2.50 O schemă simplificată a masivului de procesoare slab 
interconectate IBM (ICAP) de la Kingston, unde 10 FPS 164 co- 
munică printr-un calculator gazdă IBM. - 


ÎBM 4341 
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Acest sistem de calcul este descris ca un masiv slab concotat, deoarece 
în configuraţia inițială nu există nici o legătură directă între elementele 
de calcul (FPS-164) și deoarece legătura cu calculatorul gazdă se face prin 
canale lente. In consecinţă, numai problemele cu o granularitate foarte 
mare a paralelismului pot fi rezolvate eficient. Cu alte cuvinte, fiecare 
FPS-164 trebuie să execute un număr mare de operaţii înainte de a trans- 
fera rezultatele calculatorului gazdă prin canalele lente, sau prin calcula- 
torul gazdă către alte FPS-164. 

Un proiect similar a fost dezvoltat pe parcursul citorva ani la Cornell 
University’s Theory Center, sub conducerea Prof. Kenneth Wilson. Ini- 
ţial, acesta, constă din 8 procesoare FPS-100, conectate printr-o magistrală, 
de 24 MB/s. Proiectul este continuat la Cornell Advanced Scientific Com- 
puting Center, prin subvenţii din partea NSF, IBM şi FPS. Se afirmă 
că pot fi conectate pînă la 4000 plăci MAX, care ar realiza 40 Gflop/s. 

Pentru a cuantifica timpii de sincronizare și comunicare la ICAP, 
s-au efectuat măsurători ale parametrilor (te, 1» fi/2), discutate în $1.3.6 
partea (iv). Testul s-a făcut fie cu utilizarea canalelor, fie cu utilizarea 
magistralei FPS BUS, ceea ce a condus la următoarele ecuații (Hockney 
19874) i 


teana = 2500 + 4777 p + (1,87 m/p) + talp)s us (2.23a) 


taus = 18926 + 8181p + 0,191 m + taíp)s us (2.23b) 


unde m este numărul cuvintelor transferate în I/E, iar s numărul 
operaţiilor în virgulă mobilă din fiecare segment de lucru (vezi $1.3.6, par- 
tea (iv)). Primii doi termeni ai ecuaţiei (2.23) corespund timpului necesar 
sincronizării, al treilea se referă la comunicații, iar ultimul este cel consu- 
mat de operaţii. Faptul că termenul corespunzător comunicaţiei este invers 
proporţional cu numărul procesoarelor, p, în cazul folosirii canalelor, arată 
că acestea, deşi lente, lucrează în paralel. Pe de altă parte, vedem că în 
cazul folosirii magistralei FPS BUS, timpul pentru comunicaţii nu depinde 
de p, ceea ce arată că aceasta, deşi mult mai rapidă, lucrează serial. 

Pentru a compara cele două variante, egalăm formulele (2.2383) cu 
(2.23b), obţinînd linia de performanță egală (BPL): 


542 
nepi e E OSI aa (2.24) 
(1,87 — 0,191p) 


Această relaţie este trasată în planul fazelor (p, m) în fig. 2.51. Pentru 
un număr de procesoare p şi un număr m de cuvinte, se obţine un punct 
în plan. Poziţia lui determină dacă trebuie folosită comunicaţia prin ma- 
gistrală sau canal. Pentru p = 9,78 (linia întreruptă) se obţine infinit, ceea 
ce arată că canalele vor fi întotdeauna mai rapide dacă se folosesc cel 
puţin 10 procesoare. Motivul este faptul că overhead-ul de iniţializare 
şi de comunicaţii este mai mic în cazul canalelor, decit în cazul magistra- 
lei, iar viteza asimptotică este mi mare dacă există cel puţin 10 calcula- 
toare care lucrează în paralel. Cu alte cuvinte, mai mult de 10 canale de 
2—3 MB care lucrează în paralel siut mai rapide decit o magistrală de 24 
MB care lucrează serial. În fig. 2.51 este reprezentată şi curba ce corespund e 
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Acest sistem de calcul este deseris ca un masiv slab concotat, deoarece 
în configuraţia inițială nu există nici o legătură directă între elementele 
de calcul (FPS-164) și deoarece legătura cu calculatorul gazdă se face prin 
canale lente. In consecință, numai problemele cu o granularitate foarte 
mare a paralelismului pot fi rezolvate eficient. Cu alte cuvinte, fiecare 
FPS-164 trebuie să execute un număr mare de operaţii înainte de a trans- 
fera rezultatele calculatorului gazdă prin canalele lente, sau prin calcula- 
torul gazdă către alte FPS-164. 

Un proiect similar a fost dezvoltat pe parcursul citorva ani la Cornell 
University’s Theory Center, sub conducerea Prof. Kenneth Wilson. Ini- 
tial, acesta constă din 8 procesoare FPS-100, conectate printr-o magistrală 
de 24 MB/s. Proiectul este continuat la Cornell Advanced Scientific Com- 
puting Center, prin subvenţii din partea NSF, IBM şi FPS. Se afirmă 
că pot fi conectate pînă la 4000 plăci MAX, care ar realiza 40 Gilop/s. 

Pentru a cuantifica timpii de sincronizare şi comunicare la ICAP, 
s-au efectuat măsurători ale parametrilor (fa, 1» fi/2), discutate în $1.3.6 
partea (iv). Testul s-a făcut fie cu utilizarea canalelor, fie cu utilizarea 
magistralei FPS BUS, ceea ce a condus la următoarele ecuaţii (Hockney 
19874) 


teana = 2500 + 4777 p + (1,87 m/p) + ta(p)s us (2.23a) 


taus = 18926 + 8181p + 0,191 m + taíp)s us (2.23b) 


unde m este numărul cuvintelor transferate în I/E, iar s numărul 
operațiilor în virgulă mobilă din fiecare segment de lucru (vezi §1.3.6, par- 
tea (iv)). Primii doi termeni ai ecuației (2.23) corespund timpului necesar 
sincronizării, al treilea se referă la comunicații, iar ultimul este cel consu- 
mat de operații. Faptul că termenul corespunzător comunicației este invers 
proporțional cu numărul procesoarelor, p, în cazul folosirii canalelor, arată 
că acestea, deşi lente, lucrează în paralel. Pe de altă parte, vedem că în 
cazul folosirii magistralei FPS BUS, timpul pentru comunicaţii nu depinde 
de p, ceea ce arată că aceasta, deşi mult mai rapidă, lucrează serial. 

Pentru a compara cele două variante, egalăm forinulele (2.23a) cu 
(2.23b), obţinînd linia de performanţă egală (BPL): 


m = p (16426 + 3404p) (2.24) 
(1,87 — 0,191p) 


Această relație este trasată în planul fazelor (p, m) în fig. 2.51. Pentru 
un număr de procesoare p şi un număr m de cuvinte, se obţine un punct 
în plan. Poziţia lui determină dacă trebuie folosită comunicaţia prin ma- 
gistrală sau canal. Pentru p = 9,78 (linia întreruptă) se obţine infinit, ceea 
ce arată că canalele vor fi întotdeauna mai rapide dacă se folosesc cel 
puţin 10 procesoare. Motivul este faptul că overhead-ul de iniţializare 
şi de comunicaţii este mai mic în cazul canalelor, decît în cazul magistra- 
lei, iar viteza asimptotică este mai mare dacă există cel puţin 10 calcula- 
toare care lucrează în paralel. Cu alte cuvinte, mai mult de 10 canale de 
2—3 MB care lucrează în paralel sint mai rapide decit o magistrală de 24 
MB care lucrează serial. În fig. 2.51 este reprezentată şi curba ce corespund e 
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Fig. 2.51 Diagrama de fază prin care se compară utilizarea FPS , 

BUS cu cea a canalelor. Pentru orice număr ales de procesoare, 

p, fie FPS BUS, fie canalele sint mai rapide funcţie de numărul 

cuvintelor transferate m. Pentru mai mult de 10 procesoare, 
intotdeauna canalele sint mai rapide. 
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Fig. 2.52 Arhitectura seriei de calculatoare FPS-5000. 
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Fig. 2.53 Arhitectura internă a coprocesorului aritmetice FPS x P-32. 


la 105 la 10+1%, cu o precizie de 28 biți, Circuitele WEITEK au adoptat 
standardul IEEE 754, de reprezentare pe 32 biţi (IEEE 1983), care are 
un domeniu de reprezentare a valorilor absolute mult mai redus, de la 10-38 
la 1073, dar o mantisă mai precisă, echivalentă cu 33 biţi. 5 

Arhitectura co-procesorului XP-32 (fig. 2.53) este similară cu cea de 
la AP-120B, dar diferă la detalii (FPS 1984¢). Un multiplicator pipeline 
cu 5 etaje şi două sumatoare cu 5 etaje sint conectate prin căi de date 
multiple la o memorie principală locală (LMD) şi o memorie pentru tabele 
cu coeficienţi (TOM). LMD are capacitatea de 16 K cuvinte: pe 32 biţi, 
organizate în două blocuri, iar TOM are 4 K cuvinte pe 32 biţi organizate 
de asemenea în două blocuri. Controlul general este realizat de unitatea 
exrecutită (EU) care poate lucra simultan cu unitatea aritmetică (AU), 
asigurind astfel efectuarea în paralel a operaţiilor de 1/E și calcul al adrese- 
lor. EU execută toate transferurile de programe şi date între AC şi CP 
sau SCM. AU execută operaţii aritmetice numai cu date din TOM și LMD. 
Microprogramele pentru EU rezidă în EU PROM, care conține 2 K 
mieroinstrucţiuni pe 80 biţi. Similar, microprogramele pentru AU se află 
într-o memorie (writable control store) de 4 K microinstrucţiuni pe 128 
biţi, organizată în: 4 blocuri. i 

Între co-procesoarele aritmetice nu există nici o conexiune directă. 
Ele pot numai prelua date din SCM şi returna rezultate în SCM, astfel că 
pot comunica numai prin partajarea datelor în SCM.SCM lucrează ca 
memorie centrală a procesorului de control. În cazul procesorului de con- 
trol AP-120B, perioada ceasului este de 167 ns. În cazul mi FPS-100, 
memoria lucrează cu o perioadă de 250 ns, deci este mai lentă, Co-proce- 
soarele aritmetice pot avea acces direct (DMA) la memoria SCM, luînd 
loenl lui CP, conform unei scheme de prioritate. În cazul accesări de către 
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ACS, SCM poate tie să scrie, fie să citească un cuvînt într-o perioadă de 
ceas (dar nu ambele în același timp), obţinindu-se o lărgime de bandă a 
accesului la SCM de fie 6 Mw/s (24 MB/s), fie 4 Mw/s (16 MB/s). Memoria 
este astfel organizată încit fiecare XP-32 individuală să folosească numai 
jumătate din ea, permiţind astfel realizarea accesului simultan a două 
ACS, înainte ca accesul la memorie să devină restrictiv. În fiecare ciclu 
de memorie se limitează numărul cererilor de acces la memorie a oricărui 
AOS. 

FPS-5000 poate fi programat în întregime să folosească apeluri la 
subprogramele de bibliotecă într-un subset FORTRAN 77, denumit CP 
FORTRAN. În cele mai multe situații documentația de firmă furnizează 
formule de evaluare a timpului de execuție, de unde pot fi deduse ra și D4/2 
(FPS 1984a, b, 1985a). Prezentăm în continuare citeva, selecţii care indică 
posibilităţile sistemului. 

(i) Rutinele de interfatare cu gazda 

Următoarele rutine se execută pe calculatorul gazdă, încarcă programe 
şi date în FPS-5000 și lansează în execuţie programul CP FORTRAN, 
pe CP 

CPOPEN Deschide un fişier program CP FORTRAN. 

CPLOAD Încarcă un fişier program CP FORTRAN de la gazdă în 
CP. è 
CPRUN Lansează în execuție programul CP FORTRAN pe CP. 
EXPUT Începe transferul datelor de la gazdă la FPS-5000. 
EXGET Începe transferul datelor de la FPS-5000 la gazdă. 
APWAIT Aşteaptă încheierea transferului de date şi a programului CP. 
APWD Aşteaptă încheierea transferului de date. 

APWR Așteaptă oprirea programului CP. 

(ii) Sincronizarea AOS de către OP 

Următoarele rutine se execută pe CP şi controlează ACS : 
XPSEL Selectează XP-32 pentru XPWAIT. 

XPRUN Începe execuția programului pe XP-32 selectat. 
XPWAIT Aşteaptă pentru ca XP-32 selectat să-și încheie lucrul. 
XPSTAT Obține starea XP-32. 

(iii) Transfer de date cu SCM 

Următoarele rutine se execută pe XP-32, transferind date înainte sau 
după terminarea calculelor : 

XPDMAR Transferă date între SCM şi LMD. 

XTMDMA Transferă date între SCM și TCM. 

Ta = 2 Mop/s. 

XPISNC. Așteaptă ca transferul (sau operaţiile aritmetice) să se 
încheie. po l . 

(v) Operatii aritmetice în X P-32 s” 

Următoarele rutine XPMLIB se execută pe XP-32, realizind operații 
aritmetice cu date din LMD: 

ZVMUL (IA, IB, IC, N) Înmulțire veotorială element cu element 
A+B ; cele N elemente produse se depun în C (re = 4 Mîlop/s, Dupa =33). 

ZVDIV (IA, IB, IC, N) Împărțire , vectoriană element cu element 
(fo = 0,5 Mflop/s, niz = 9). | 

ZVSASM (IA, IB, ID, IC, N) Triada vectorială, adunare scalar- 
vector, înmulţire scalar-vector : © = (A+b)+d (Ta = 12Mihiop/s, nup=56). 
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ZVASM (IA, IB, ID, IC, N) C = (A--B)sd (roe=8 Milop/s, nia= 
= 37). 

ZVAM (IA, IB, ID, IC, N) C =(A+B)D (re=6 Mflop/s, D12 = 
= 28). S 
Cifrele furnizate mai sus corespund unor operații diadice sau triadice 
executate de un singur XP-32, neluîndu-se în considerare timpul necesar 
sincronizării multiplelor ACS ale unui FPS-5000 (performanța MIMD) 
sau timpul de transfer al datelor din SCM la LMD înaintea execuției calcu- 
lelor. Aceste valori au fost măsurate separat de Curington şi Hockney 
(1986) şi interpretate în termenii parametrilor n;/2, Sa Și fizz ($1.3.6). În tab. 
2.11 şi 2.12 se prezintă aceste rezultate. 

Calculatorul FPS-5000A, folosit pentru măsurători, constă dintr-un 
procesor de control şi fie unul, fie două co-procesoare aritmetice XP-32. 
Măsurătorile efectuate numai. cu CP (tab. 2.11) nu implică sincronizare 
şi sint de valoarea lui n;;, în timp ce cele produse pe multiprocesoare includ 
timpul de sincronizare şi sînt de valoarea lui s,/2. Valorile ultimului indică 
numărul minim de operaţii aritmetice care trebuie împărţite între co- 
procesoarele XP-32. Atit CP cit şi ACS lucrează cu frecvenţa de 6 MHz 
şi au unităţi pipeline cu performanță maximă de 6 Milop/s pentru operaţii 
diadice, care folosesc numai un pipeline, sau 12. Mflop/s pentru operaţiile 
triadice care folosesc două unităţi pipeline. Prin urmare, performanţa 
maximă pentru configurația maximă de un procesor de control și două 
XP-32 este de 18 Mflop/s pentru diade şi 36 Mflop/s pentru triade. În 
celelalte cazuri, lărgimea de bandă a accesului la memorie inadecvate 


Tabelul 2.11. Măsurători (ro; Ny2) pentru un multiprocesor FPS-3320 A care are un procesor de 
control (CP) și unul sau două coprocesoare XP-32, care lucrează cu date din memoriile lor locale, 


Operaţie Configuraţie Too (Milop/s) Nga SAU S,/a 
| 

Diadă | numai CP 1,5 14* 

A =B xC un XP-32 4,0 470 

VMUL sau ZVMUL două XP-32 8,0 1320 
CP + două XP-32 9,2 1545 

“Triadă numai CP 3,9 40* 

A =(B +s)axc un XP — 32 12,0 1490 

VSASM sau ZVSASM două XP-32 24,0 4200 
CP + două XP-32 27,7 4820 


Tabelui 2.12 Valori ale performanței maxime, Foo ŞI îÎ;/, pentru un coprocesor aritmtetie XP-32 
care execută operaţii ZVASASM cu date în memoria comună. 


Cazul | Yo (Milop/s) fi/a 
1/E. seeventială 12,5 4,2 
1/ E suprapuse 12,6 i 2,2 
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împiedică atingerea valorilor maxime, deşi, din acest punct de vedere, 
XP-32 suferă mult mai puţin decît CP. 

Măsurătorile din tab. 2.11 corespund operaţiilor executate cu date 
din memoriile locale (LMD) ale XP-32, care se presupun deja încărcate. 
În mod obișnuit, datele se află în SCM şi vor trebui transferate în LMD 
înaintea, efectarării calculelor. Prin urmare, viteza de calcul totală va de- 
pinde în mod critic de numărul operaţiilor aritmetice executate în XP-32 
pentru un transfer între SCM şi LMD (variabila f definită în $1.3.6)şi 
poate fi caracterizată de parametrul fizo. FPS-5000 este un instrument 
ideal pentru studiul acestei dependente, deoarece f poate fi modificat 
cu uşurinţă, obţinindu-se și valoarea necesară atingerii a jumătate din 
performanța maximă. Parametrul î,/, este furnizat în tab. 2.12. Valoarea 
obţinută de 12 Mflop/s corespunde operaţiei ZVSASM. Se consideră două 
cazuri, primul cînd transferurile de I/E între SCM şi LMD au loc secven- 
tial cu operaţiile aritmetice şi al doilea, cînd operaţiile de I/E au loc simul- 
tan cu cele aritmetice (se suprapun). Se găseşte că efectul psi este 


înjumătăţirea lui f}; 
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3. 


- MULTIPROCESOARE ŞI MASIVE 
DE PROCESOARE 


3.1. Limitele conceptului pipeline 


Paralelismul poate fi introdus în structura fizică a calculatorului 
numai prin două tehnici, multiplicare și pipelining; conceptul pipeline 
poate fi interpretat ca o multiplicare posibilă prin secvență, deoarece 
fiecare componentă urmează alteia în timp. Operaţiile pipeline se execută 
prin suprapunerea operaţiilor lor componente mai simple, folosindu-se 
hardware paralel. Părţile componente ale secvenței de operaţii sînt prelu- 
crate în pipeline în cursul instanțelor sucvesive de timp. În acest mod, o 
singură operaţie va partaja unitatea pipeline cu un număr de alte operaţii 
în timp ce execuţia ei avansează prin diversele etaje. 

Diferenţa fundamentală dintre pipelining și multiplicarea spaţială 
este că operaţiile componente paralel ale unui pipeline Vor executa proba- 
bil task-uri diferite care, cînd se execută în secvenţă, realizează operația 
cerută. Evident există o limită a paralelismului disponibil prin descompu- 
nerea unei operaţii în sub-task-uri, în afară de cazul cînd operaţiile sînt. 
extrem. de complexe. Deşi programele complete sînt complexe, iar utiliza- 
rea unui pipeline de task-uri concurente poate fi foarte atractivă ca stil 
de programare, astfel. de unităţi pipeline mai sint foarte dependente de 
aplicaţie. Astfel, în cazul general, conceptul pipelining poate asigura un 
grad limitat de paralelism, prin exploatarea operaţiilor complexe comune, 
cum sint cele de calcul aritmetic în virgulă mobilă. 

Totuși conceptul pipelining reprezintă forma cea mai atractivă de 
paralelism disponibil, deoarece nu creează aceleaşi probleme de comunicaţie 
întilnite la multiplicarea spaţială. Un pipeline este proiectat să reflecte 
circulația naturală a datelor operaţiei în curs de execuţie, în timp ce 
multiplicarea spaţială. va utiliza fie o reţea fixă, fie o reţea programabilă.. 
În primul caz, reţeaua nu reflectă în mod necesar circulaţia dateior prelu- 
crate; în al doilea caz, mai general, costurile sînt mari. 

Deşi este atractiv, singur conceptul pipelining nu va asigura atinge- 
rea scopului unei puteri de calcul nelimitate, care a justificat folosirea. 
paralelismului în sisteinele de calcul. Acesta se va realiza prin utilizarea 
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multiplicării spaţiale, sau într-adevăr printr-o combinaţie între pipelining 
şi multiplicarea spaţială. Această teză pare a fi deja demonstrată, lucru 
evidențiat de evoluţia calculatoarelor pipeline descrise în capitolul 2. 
CRAY X-MP a evoluat prin multiplicarea unei secţiuni de calcul identică 
funcţional cu cea de la predecesorul CRAY-I1, dar mai rapidă. Un alt 
exemplu bun este oferit de CDC CYBER 205, evoluat din CDC STAR 
prin multiplicarea unităţilor pipeline reproiectate. Într-adevăr, această, 
arhitectură are un viitor mare reprezentat de ETAY, unde o implementare 
VLSI a unui CYBER 205 cu două unităţi pipeline va fi multiplicată de 
pină la 8 ori pentru atingerea performanței maxime de 10 Gflop/s. 

Aceste arhitecturi ce se bazează pe multiplicarea limitată a unor pro- 
cesoare foarte rapide sint practic foarte costisitoare. Ele folosesc orologii 
rapide, care impun folosirea unor circuite de viteză mare şi care disipă multă, 
energie, cum sint cele în tehnologie ECL, care nu permit o densitate prea 
mare. Mai mult, pentru atingerea unor viteze înalte, circuitele trebuie să 
fie atit de apropiate cit este fizic posibil. În acest mod se evită limitarea 
frecvenţei orologiilor prin timpii de propagare ai semnalelor. În schimb 
se exacerbează problemele eliminării puterii disipate de aceste circuite 
fierbinţi. ETA! reprezintă o excepţie de la folosirea circuitelor ECL la 
supercalculatoare, fiind implementat cu circuite CMOS de mare densitate. 
Pentru a se obţine în tehnologie VLSI viteze mari de comutare, sint nece- 
sare nivele de tensiune scăzute şi temperaturi de lucru foarte scăzute (tem- 
peratura hidrogenului lichid). j 

Deși ETA” folosește circuite VLSI, nu exploatează în întregime posi- 
bilităţile de miniaturizare oferite de tehnologie. Sint necesare multe cir- 
cuite diferite, proiectate pe baza tehnicii de proiectare a masivelor de porţi. 
Alternativa circuitelor VLSI de masă implică o multiplicare masivă în 
sistem. Recent (circa 1985) au devenit disponibile componente adecvate 
pentru multiplicarea în acest grad. Acest capitol explorează alternativele 
xeplicării în arhitectura calculatorului ; aspectele tehnologice sînt tratate 
ulterior, în capitolul 6. 


3.2. Alternativa multiplicării 


3.2.1. O problemă de scalare 


În sistemele cu multiplicare, aspectele cele mai importante sint legate 
«le scalare ; în timp ce un număr mic de procesoare pot comunica eficient 
prin magistrale sau memorii comune, în cazul unor numere mai mari natura 
inerent secvenţială a acestor metode produce strangulări. De aceea, proiec- 
tantul este forţat să considere sisteme în care datele sint comutate între 
procesoare. Aceasta se poate realiza fie cu o reţea fixă, unde distanţele 
-cresc cu numărul de procesoare, fie cu o rețea programabilă, unde costurile 
urmează o lege pătratică. (Ultima soluţie poate ridica probleme considera- 
bile privind conductoarele electrice). 


Fig. 3.1 prezintă schematic un sistem multiplicat spaţial general. 
“Este o încercare de a distila caracteristicile comune unei varietăţi largi 
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de astfel de sisteme şi de aceea nu reflectă nici un sistem particular. Totuşi, 
ilustrează aspectele mai importante ale unor astfel de arhitecturi. Acestea 
sînt : o memorie paralelă de unde pot fi accesate simultan mai multe cu- 
vinte ; un masiv de procesaore ; şi circuitele de comutare, importante peste 
tot. Comutatorul dintre procesoare asigură 
un set de conexiuni între porturile procesoa- 
relor, care pot realiza un set redus şi fix de 
permutări, sau pot realiza, setul complet de 
n! permutări. Comutatorul dintre procesor- 
memorie asigură căile de date între diversele 
blocuri de memorie şi procesoare. Pentru 
acest comutator există două alternative : una 
permite numai permutarea identică, iar cea- 
laltă permite unui procesor accesul la toate 
blocurile de memorie. Trebuie să observăm 
că nu este de dorit să avem, în acest ultim Comutator interprotesoare 

caz, un număr de procesoare egal cu cel al blo- 


ilor i Fig. 3.1 Diagramă ce ilustrează un 
curilor de memorie. sistem generic cu multiplicare spa- 


Diferențele între arhitecturile paralele ţinlă, unde P, la Pn sint procesoare, 
diverse ce se întilnese în literatură pot fi int M,la Mm sint modulele de me- 
cuantificate cu următorii parametrii : TORE e 

(a) prima cantitate este dimensionarea masivului și puterea procesoru- 
lui individual, produsul acestora determinind pînă la un punct puterea în- * 
tregului sistem ; 

(b) complexitatea rețelelor de conectare, care va determina flexibilita- 
tea sistemului și, de aici, dacă puterea obținută prin multiplicare poate fi 
folosită de o clasă mare de probleme; 

(c) distribuţia controlului sistemului, adică dacă întregul masiv este 
condus de un procesor central, sau dacă fiecare procesor are propriul său 
controler ; È 

(d) forma de control a sistemului, care poate fi dedusă dintr-o sec- 
venţă, predefinită de instrucțiuni, sau o structură de control mai adecvată 
stilurilor de programare declarative, ca modelul data flow sau reducționist, 

Trebuie să observăm că în acest model procesoarele pot să nu aibă o 
structură atomică simplă, dar pot conține multiplicare sau concurență, 
ca în cazul structurilor pipeline multiplicate amintite anterior. 


3.2.2. Organizarea eontrolului 


Din toate problemele ridicate anterior, probabil controlul este cel care 
diferenţiază arhitecturile paralele. Cu siguranță acesta este adevărul, 
cînd se consideră forma de ansamblu de control (cu flux de instrucțiuni, 
reducţionist, data flow ete.), iar alegerea modului de control al următoarei 
generaţii de calculatoare, a cincea generaţie (Uehida 1983) este însoţită 
de controverse. 

Atit stategia data flow (Dennis 1980, Chamberet al 1984), cit şi 
cea reducţionistă (Turner 1982, Chamber et al 1984) pot fi utile pentru 
degrevarea programatorului de sarcina secvenţierii explicite a instrucţiuni- 
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lor. Efectul asupra ingineriei programării este profund (vezi cap. 4), asociat 
cu un cadru pentru strategia de lucru a maşinii. În aceste limbaje funcţio- 
nale și logice, secvența de instrucțiuni se stabileşte prin decompoziţia 
deserierii problemei, mai degrabă decit pe baza unui algoritm. 


(î) Data flow | 

În cadrul modelului data flow, o instrucţiune nu se execută sub 
influenţa unui numărător de program, ci dacă și numai dacă toţi operanzii 
ei sînt disponibili. Prin urmare, un program data îlow poate fi interpretat 
ca un graf orientat, de-a lungul căruia circulă elemente de date (data to- 
ken), ieşirea unei operaţii fiind conectată cu un arc al grafului la operaţiile 
cate îi consumă rezultatul. Într-o mașină fizică, instrucțiunile ar fi re- 
prezentate în general ca pachete ce conţin cimpuri pentru operaţii, operanzi 
(date sau referinţe) și identificatori care dau semnificații acestor informații. 
Acest ultim cîmp este necesar, deoarece starea maşinii nu mai poate asi- 
gura, contextul de unde poate fi dedusă interpretarea datelor. În cursul 
execuţiei identificatorii sint comparaţi cu pachetele rezultate, ce conţin 
câmpuri de identificatori, și date și cînd toţi operanzii unei instrucțiuni sint 
disponibili, instrucţiunea este plasată într-o coadă de așteptare pentru 
execuţie imediată. 

Pentru exemplificare să considerăm programul și modul de execuţie 
pentru expresia : 


(A-+-B)*(C-+-D) 


Programut, care conţine un număr de pachete instrucțiuni este „în- 
căreat” în sistem prin injectarea acestor pachete într-o memorie pentru 
programe. Execuţia programului va fi inițiată prin injectarea pachetelor 
de date, care conţin valorile pentru A, B, C şi D. O implementare a 
variabilelor A și D este prin atribuirea, unor identificatori unici, memoraţi 
în pachetele instrucțiuni. Datele vor trebui identificate în același mod. O 
unitate de comparare va compara identificatorii datelor care circulă prin 
sistem cu cei ai instrucţiunilor. De exemplu, cele două operaţii de adunare 
vor atrage datele asociate, iar cînd sînt gata pentru execuţie, ele se pot 
realiza în paralel. Calculatoarele data flow pot folosi conceptele de pipeli- 
ning și multiplicare. 

Conceptul pipelining poate fi introdus în circulaţia pachetelor de date 
(secvența de operaţii) prin sistem. Multiplicarea poate îi realizată prin 
partajarea pachetelor de instrucțiuni între procesoare. Dacă se exploatează 
această ultimă formă de paralelism, sînt necesare mijloace echitabile de 
partajare a pachetelor program şi a identificatorilor asociaţi între proce- 
soare. | t 
Numai cînd s-au terminat aceste două operaţii de adunare, generin- 
du-se valori pentru sub-expresiile din paranteze, va putea fi executată şi 
înmulţirea. Se poate vedea că strategia de execuţie este determinată de 
date și începe de la nivelul cel mai interior al unei expresii, desfăşurindu-se 
spre exterior. Evident, într-un program real, graful sau programul vor fi 
mult mai complexe decit acest exemplu simplu. Oricum, acest exemplu 
este suficient pentru ilustrarea noţiunii de paralelism asincron ce este con- 
trolat în întregime de un mecanism determinat de date. Deoarece toate 
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dupendenţele de date au fost rezolvate prin graful de descriere al programu- 
lui, nu sint necesare declarații paralele explicite care să faciliteze execuţia 
programelor data flow pe procesoare multiple. Programele trebuie descom- 
puse în modalităţi care să permită extragerea paralelismului, De exemplu, 
o simplă recursie de listă va produce un algoritm secvențial, în timp ce o 
împărțire recursivă a listei, ce ar exprima funcția la ambele jumătăţi, 
vă genera un algoritm ce conţine paralelism. Înjumătăţirea recursivă este 
le baza multor algoritini, de exemplu sortarea quick şi este o expresie cla- 
zică peniru generarea paralelisimului implicit. 

O maşină data flow ce se bazează pe conceptul pachetelor de instruc- 
iuni marcate cu identifieatori va avea unul sau mai multe procesoare 
constituite din următoarele rinități : 

(a) una sau mai multe memorii peniru date; 

(b) una sau mai multe unităţi de executie: 

(c) o memorie program, unde se află gratul program ; 

(d) o unitate de comparare, care elimină informaţiile neprelureate. 

O asitel de maşină a fost consiruită de un grup de cercetători de la 
Universitatea Manchester (Gurd si Watson 1980, şi Watson si Gurd 1982). 
Pentru lecturi ulterioare privind conceptul data ilow recomanda lucrările 
lui Chamber et al (1931) și Hwang și Briggs (1984). 


(ii) Reducerea 5 

Reducerea ca metodă de control a calculatorului poate produce, de 
asemenea, paralelism fără control explicit. Reducerea se bazează pe mate- 
matica functiilor şi calculul lambda, iar prin folosirea acestui formalism 
programele pui fi considerate ca șiruri de expresii sau arbori. De exemplu, 
un program poate fi reprezentat de expresia următoare, fie ca şir, fie struc- 
iurat ca arbore, cu operatorul „*” ca rădăcină și doi sub-arbori ce conţin 
operatori „——” gi operanzii A şi B, respectiv C si D. 


(A+B)*(C--D)} 


În timp ce la maşinile data flow execuția este comandată de date, în 
cazul unei sirategii reductioniste execuția se tace la cerere (demand dri-" 
ven). Astfel, dacă acest program a fost introdus în sistem sau activat 
printr-o cerere a rezultatului, emisă de un program mai mare, va avea loc 
o serie de rescrieri, care reduc această expresie la operațiile componente. 
O rescriere este procedura de reducere a unei expresii sau arbore, de execu- 
tie a operației dacă sint cunoscute frunzele, sau de activare a subexpresiilor 
gau sub-arborilor dacă nu sint cunoscute. Probabil termenul de reducere” 
induce în eroare, deoarece operaţiile inițiale ale seevenței vor genera mai 
multe programe de executat odată cu acționarea unor noi sub-arbori sau 
sub-expreșii. 

Desigur fiecare arbore poate fi distribuit: pe hardware concurent, 
pentru o evaluare în paralel. Ta o etapă ulterioară, programul va fi redus 
la operaţiile componente, care pot îi reprogramate similar ca la sistemele 
data. flow, prin pachete marcate cu identiticatori. Se poate vedea că re- 
ducerea, evaluează expresiile din exterior spre interior. 
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lor. Efectul asupra ingineriei programării este protund (vezi cap. 4), asociat 
cu un cadru pentru strategia de lucru a maşinii. În aceste limbaje functio- 
nale și logice, secvenţa de instrucţiuni se stabileşte prin decompoziţia 
deserierii problemei, mai degrabă decit pe baza unui algoritm. 


(î) Data flow 

În cadrul modelului data flow, o instrucţiune nu se execută sub 
influența unui numărător de program, ci dacă și numai dacă toţi operanzii 
ei sînt disponibili. Prin urmare, un program data flow poate fi interpretat 
ca un graf orientat, de-a lungul căruia circulă elemente de date (data to- 
ken), iesirea unei operaţii fiind conectată cu un arc al grafului la operaţiile 
cate îi consumă rezultatul. Într-o mașină fizică, instrucțiunile ar fi re- 
prezentate în general ca pachete ce conțin cîmpuri pentru operaţii, operanzi 
(date sau referinţe) și identiticatori care dau semnificații acestor informaţii, 
Acest ultim cîmp este necesar, deoarece starea maşinii nu mai poate asi- 
gura contextul de unde poate fi dedusă interpretarea datelor. În cursul 
execuţiei identiticatorii sînt comparaţi cu pachetele rezultate, ce conţin 
câmpuri de identificatori, şi date și cînd toţi operanzii unei instrucţiuni sint 
disponibili, instrucţiunea este plasată într-o coadă de aşteptare pentru 
execuție imediată. 

Pentru exempliticare să considerăm programul şi modul de execuţie 
pentru expresia : 


(A+ B)+(C+D) 


Programul, care conține un număr de pachete instrucţiuni este „în- 
căreat” în sistem prin injectarea acestor pachete într-o memorie pentru 
programe. Execuţia programului va fi inițiată prin injectarea pachetelor 
de date, care conţin valorile pentru A, B, C şi D. O implementare a 
variabilelor A și D este prin atribuirea unor identificatori unici, memorați 
în pachetele instrucţiuni. Datele vor trebui identificate în acelaşi mod. O 
unitate de comparare va compara identificatorii datelor care circulă prin 
sistem cu cei ai instrucţiunilor. De exemplu, cele două operaţii de adunare 
vor atrage datele asociate, iar cind sînt gata pentru execuție, ele se pot 
realiza: în paralel. Calculatoarele data flow pot tolosi conceptele de pipeli- 
ning si multiplicare. 

Conceptul pipelining poate fi introdus în circulaţia pachetelor de date 
(secvența de operații) prin sistem. Multiplicarea poate fi realizată prin 
partajarea pachetelor de instrucțiuni între procesoare. Dacă se exploatează 
această ultimă formă de paralelism, sînt necesare mijloace echitabile de 
partajare a pachetelor program şi a identificatorilor asociați între proce- 
soare. $ 
Numai cînd s-au terminat aceste două operații de adunare, generin- 
du-se valori pentru sub-expresiile din paranteze, va putea fi executată şi 
înmulțirea. Se poate vedea că strategia de execuţie este determinată de 
date și începe de la nivelul cel mai interior al unei expresii, destăşurindu-se 
spre exterior. Evident, într-un program real, graful sau programul vor îi 
mult mai complexe decît acest exemplu simplu. Oricum, acest exemplu 
este suficient pentru ilustrarea noțiunii de paralelism asincron ce este con- 
trolat în întregime de un mecanism determinat de date. Deoarece toate 
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«lcpendenţele de date au fost rezolvate prin graful de descriere al programu- 
lui, nu sint necesare declaraţii paralele explicite care să faciliteze execuţia 
programelor data flow pe procesoare multiple. Programele trebuie 'descom- 
puse în modalităţi care să permită extragerea paralelismului. De exemplu, 
o simplă recursie de listă va produce un algoritm secvențial, în timp ce o 
împărțire recursivă a listei, ce ar exprima funcția la ambele jumătăţi, 
vă genera un algoritm ce conține paralelism. Înjumătăţirea recursivă este 
le baza multor algoritmni, de exemplu sortarea quick şi este o expresie cla- 
sică peniru generarea paralelisinului implicit. 

O maşină daia flow ce se bazează pe conceptul pachetelor de instruc- 
{iuni marcate cu identificatori va avea unul sau mai multe procesoare 
constituite din următoarele unităţi : 

(a) una sau mai multe memorii pentru date; 

(b) una sau mai multe unităţi de execuţie: 
(c) o memorie program, unde se află graful program; 

(d) o unitate de comparare, care elimină informatiile neprelurcate. 

O astfel de maşină a fost construită de un grup de cercetători de la 
Universitatea Manchester (Gurd si Watson 1950, şi Watson ṣi Gurd 1982). 
Pentru lecturi ulterioare privind conceptul data ilow recomandăn lucrările 
lui Chamber et al (1984) xi Hwang si Briggs (1984). 


(îi) Reducerea i 

Reducerea ca metodă de control a calculatorului poate produce, de 
asemenea, paralelism fără control explicit. Reducerea se bazează pe mate- 
matica funcţiilor gi calculul lambda, iar prin folosirea acestui formalism 
programele pet fi considerate ca şiruri de expresii san arbori. De exemplu, 
un program poate fi reprezentat de expresia următoare, fie ca şir, fie struc- 
turat ca arbore, cu operatorul „*” ca rădăcină şi doi sub-arbori ce conțin 
operatori „--” si operanzii A şi B, respectiv C si D. 


((A+B)+(C--D)) 


În timp ce la maşinile data flow execuția este comandată de date, în 
cazul unci strategii reductioniste execuția se tace la cerere (demand dri-" 
ven). Astfel, dacă acest program a fost introdus în sistem sau activat 
printr-o cerere a rezultatului, emisă de un program mai mare, va avea loc 
o serie de rescrieri, care reduc această expresie la operaţiile componente. 
O rescriere este procedura de reducere a unci expresii sau arbore, de execu- 
ție a operației dacă sînt cunoscute frunzele, sau de activare a subexpresiilor 
sau sub-arborilor dacă nu sint cunoscute. Probabil termenul de „reducere” 
induce în eroare, deoarece operaţiile inițiale ale secvenţei vor genera mai 
multe programe de executat odată cu acționarea unor noi sub-arbori sau 
sub-expresii. | 

Desigur fiecare arbore poate fi distribuit pe hardware concurent, 
pentru o evaluare în paralel. La o etapă ulterioară, programul va îi redus 
la operaţiile componente, care pot îi reprogramate similar ca la sistemele 
data flow, prin pachete marcate cu identiticatori. Se poate vedea că re- 
ducerea evaluează expresiile din exterior spre interior. 
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Un grup de cercetători de la Imperial College a construit o arhitectură. 
pentru implementarea limbajelor funcţionale prin reducere (Darlington şi 
Reeve 1981). Această mașină se bazează pe transputere, iar ICI a pro- 
dus citeva maşini prototip, dintre care una pentru Imperial College în 1986. 
O altă implementare practică a arhitecturii reducționiste este finanțată de 
programul Alvey la University College, Londra (Peyton-Jones 1987 a, b). 
Pentru informaţii privind activitatea practică recentă legată de maşinile 
data flow, reducţioniste, vezi Chamber et al (1984) şi Jesshope (1987 b.) 

În ciuda faptului că ambele metode de control generează paralelismul 
fără o comandă explicită, ele sînt ineficiente în comparaţie cu strategia 
de control mult mai folosită a fluxului de instrucţiuni. În ambele cazuri 
organizarea poate solicita un număr substanțial de operaţii. Pot fi zeci 
sau chiar sute de instrucţiuni executate pentru fiecare instrucţiune folosi- 
toare. Aceasta este foarte ineficient în comparaţie cu calculatoarele cu 
flux de instrucțiuni înalt optimizate, în uz în ultimele trei, patru decade. 
Totuşi, aceste arhitecturi încearcă să ridice nivelul de abstractizare al 
modelului de programare către unul în care calculatorul execută specifica- 
ţia unei probleme. O analogie cu această situaţie ar reprezenta-o comparația 
între programarea în limbaj de așamblare și într-un limbaj de nivel înalt, 
unde ultimul mod nu trebuie comparat cu primul în termeni de eficienţă 
dacă nu se ia în considerare şi eficiența programării. În acest caz, există 
orientări spre arhitecturi care execută limbaje de nivel înalt (Organick 
1973) care au minimizat orice pierdere de eficiență în schimbul nivelului 
mai înalt de abstractizare. 

În același mod, deoarece cercetările continuă în domeniul sistemelor 
declarative, arhitecturile vor deveni mai eficiente odată cu creşterea rafina- 
mentului implementăriilor hardware şi a tehnologiei compilatoarelor. 
Într-adevăr, prezentări recente ale cercetărilor în domeniul data, flow 
efectuate la Manchester (Gurd 1987) s-au referit la comparații foarte favo- 
rabile ale mașinii data flow în comparaţie cu arhitecturile convenţionale. 
Este probabil că implementările de limbaje funcționale să urmeze această 
direcţie „deşi sînt aproximativ cu 5 ani în urma fazelor de dezvoltare ale 
mașinilor data flow. l 

O limită fundamentală a acestor arhitecturi este cea a lărgimii de bandă 
a comunicaţiei între procesoare, dar ea este împărtășită de toate sistemele 
care folosese multiplicarea. Această problemă crește cu dimensiunea 
sistemului și deoarece mașinile data flow și reducționiste solicită, distribui- 
rea programelor şi a datelor, ca şi o comunicaţie adecvată, necesarul de 
lărgime de bandă este mai mare și este probabil să devină o limită în calea 
acestor strategii. De exemplu în cazul acestor arhitecturi, pachetele de 
100 biţi sînt obişnuite, chiar pentru operaţii pe 16 biţi. În controlul cu 
flux de instrucțiuni, numai unul intr-o pereche de operanzi trebuie transmis 
prin reţeaua de comunicaţie. La maşinile data flow și reducţioniste, trebuie 
comunicate mai multe pachete pentru a se executa o singură operaţie 
utilă. Introducerea unor întirzieri sau folosirea. conceptului pipelining este 
un instrument util pentru combaterea complexităţilor comunicaţiei, dar 
pentru un sistem efectiv trebuie să existe un echilibru între procesul de 
comunicaţie şi cel de calcul și, aşa cum s-a indicat, acest echilibru este 
favorizat faţă de comunicare cu creşterea gradului de multiplicare. 
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În general, cele mai eficiente sisteme cu multiplicare, fie comunică 
date, fie programe între procesoare, care necesită cea mai mică lărgime 
de bandă. De exemplu, dacă, două procesoare trebuie să stabilească o 
comunicaţie susţinută, ar fi indicat ca ele să-și transmită mai degrabă 
e decit date. Desigur la mașinele SIMD este necesar să se transmită 

ate. l l 


(iii) Control cu flux de instructiuni. 

Dacă considerăm doar arhitecturile cu flux de instrucțiuni, există 
largi posibilități de implementare a strategiei de control intr-un sistem 
cu multiplicare. De exemplu, dacă folosim un singur controler central 
pentru toate procesoarele, avem o maşină SIMD. „Alternativa” este ca 
îiecare procesor să execute propriul ilux de instrucțiuni ,cu un controler 
automat. În acest caz avem „conform clasificării lui Flynn, o mașină MIMD. 
Oricum, între aceste două extreme se află un spectru larg de strategii de 
control. 

Să luăm următorul exemplu: la un nivel al unei arhitecturi date 
putem găsi un masiv de procesoare sub controlul MIMD, dar fiecare pro- 
cesor” poate conţine, de asemenea, un masiv de procesoare sub control 
SIMD. Această structură a fost propusă de mai mulţi proiectanți. (Pease 
1977, Jesshope 19863, b, c, Lea 1986). 

Să luăm şi cealaltă situaţie a unui singur controler central, care asi- 
gură cea mai mare parte a cuvîntului de control pentru un masiv SIMD, 
dar unde fiecare procesor poate furniza local informaţii de control, funcţie 
de condiţii locale. Cete mai multe calculatoare SIMD au la nivelul fiecărui 
procesor cel. puţin o capacitate rudimentară de control, deşi, de obicei, 
aceasta se reduce la un comutator on/off. La alte masive, în sarcina proce- 
soarelor au fost date mai multe cimpuri de control, în timp ce sincronizarea 
şi secvenţierea se realizează tot centralizat. Dacă un astfel de masiv are o 
capacitate semnificativă de control local, se spune că este adaptiv. În 
3 3.5.4. se prezintă un exemplu de masiv adaptiv. 

Controlul unui masiv poate consta, de asemenea din mai multe nivele, 
această tehnică este folosită adesea pentru reducerea complexității proiec- 
tării unităţilor de control. Este posibil ca la un nivel să poată fi sincronizat 
masivul sub controlul unui singur fiux de instrucţiuni, iar la nivelele in- 
ferioare (de exemplu, microcod) să se execute diferite secvenţe de instruc- 
țiuni. Astfel, funcţie de starea locală, microcontrolerul local poate acționa 
autonom, deși ca răspuns la o instrucţiune identică, Un astfel de sistem a 
a fost propus de Pease (1977) şi implementat de Baba (1987). 

În realitate deciziile legate de control, ilustrate de exemplele anterioare, 
sint adesea decizii inginereşti luate funcţie de tehnologiile de implementare. 
Spre deosebire de distincţia dintre modul de control declarativ sau cu 
flux de instrucţiuni, aceste decizii nu sint filozofice „deoarece în practică 
orice formă de control poate fi simulată cu alta. Oricum se va plăti o 
penalitate în eficiență dacă structura de control nu este adecvată algorit- 
mului. Execuţia programelor SIMD pe maşini MIMD reprezintă o risipă 
de hardware, penalizată prin overhead-ul de sincronizare, în timp ce cazul 
opus va impune ca maşina SIMD să execute un interpreter, probabil foarte 
ineficient, care ar putea interpreta datele procesorului ca instrucțiuni. 
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Oricare ar fi alegerile, deciziile se vor lua pe baza restricţiilor tehnolo- 
gice și a domeniului de aplicații. De exemplu dacă se implementează un 
sistem cu multiplicare pentru prelucrarea, imaginilor binare, o alegere bună 
pentru procesor va fi unu! serial pe bit. O structură MIMD cu procesoare 
pe 1 bit nu va fi implementată eficient, datorită overhead-ului complex 
introdus de controier și memoria program. De accea o mașină SIMD va 
corespunde mai bine. Din păcate, pentru sistemele cu multiplicare nu 
există o soluţie universală, sau cel puţin nu a fost încă descoperită. 


3.2.3, Distribuirea puterii de caleul 


Unul din subiectele cele mai importante şi controversate privind 
multiplicarea este distribuirea puterii de calcul. S-au realizat proiecte la 
care numărul procesoarelor variază de la cîteva zeci la citeva mii. Evident, 
pentru un anumit cost, cu cît este procesorul mai complex, cu atît pot fi 
combinate mai puţine într-un masiv. Aceasta este o problemă clasică 
de compromis între puterea procesorului individual și dimensiunea masivu- 
lui de procesoare. Care sînt atunci factorii care influențează această de- 
cizie? 

Un factor important, deja discutat în capitolul 1, este aplicabilitatea 
unui calculator paralel la o mulțime dată de pro obleme. Cu cît este calcula- 
torul mai paralel, cu atit devine mai specializat. Aceasta este într-adevăr un 
argument de eficienţă deoarece dacă problema este mai puţin paralelă 
decît calculatorul, eficiența acestuia va suferi. Acest argument poate îi 
considerat pentru o gamă largă de aplicații, pentru care există algoritmi 
paraleli; vezi cap. 5. Evident, cuantificarea paralelismului este imposi- 
bilă, cu excepția situației cînd tipul şi dimensiunea problemei sînt cunos- 
cute. Oricum, pentru o clasă largă de probleme, cantitatea de paralelism 
care poate fi exploatată este mult mai mare decît cele mai mari masive 
constituite pînă în anul 1988. Mai mult, este probabil că dimensiunea aces- 
tor probleme va crește cu puterea de calcul disponibilă şi, pentru un pro- 
cesor de complexitate fixă, va varia cu numărul procesoarelor multiplicate 

Pentru o anumită clasă de probleme, poate fi necesară o mică canti- 
tate de paralelism, satisfăcută de masive de dimensiuni reduse construite 
cu procesoare foarte puternice, hardware relativ costisitor pentru operaţii 
în virgulă mobilă, sau de calculatoare vectoriale pipeline. Pentru alte pro- 
bleme, paralelismul poate fi atins pe scară mare, luindu-se în considerare 
alte aspecte. 

Cel mai simplu procesor este de tipul serial pe bit „din care, prin ex- 
ploatarea tehnologiilor VLSI, pot fi combinate foarte ieftin mai multe 
mii. În acest mod, puterea de calcul este discretizată foarte fin, la nivelul 
unui bit-slice al datelor, care trebuie să se caracterizeze printr-un parale- 
lism înalt. Se poate vedea că pentru un paralelism dat, această soluție 
asigură o utilizare foarte eficientă a hardware-ului pentru toate formele de 
date : booleene, caractere, numere întregi sau în virgulă mobilă. Se mai 
poare arăta că, pentru un număr dat de elemente logice, această soluție 
oferă puterea de calcul maximă, cel puțin pentru operații simple. Să con- 
siderăm ca problemă simplă adunarea unui număr de perechi de numere 
reprezentate pe b biţi (să spunem N, unde N >b), avînd b numărătoare 
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pe 1 bit cu timpul de calcul <ra. Fig. 3.2. prezintă tabela de adevăr 
pentru un sumator complet şi o implementare a sa. 

O soluţie ar consta din înlănţuirea număătoarelor, care ar adresa 
astfel toţi biții nnui cuvint, Acesta este denumit uneori sumatorul paralel, 
prezentat în fig. 3.3. Se poate vedea că procesorul nu este paralei deloc, 
ci secyenţial. Transportul de la primul sumator este definit după tra 


dif. 
-S a 
d ? | l 
90 

j i A 4 pi Memorie P 

o Ta S o KoA a 

ue le: o0 Bitya Un cuârt B 

nanna a G l f Sa E a 

a A - 1 H 

i FaF 

1 1 


Ho bhp 


fäi pd, 
= = fa] 
Fig. 3.2 Tabela de adevăr şi schema unui Fig. 3.3 Sumator paralel, sau cu transport 
sumator construit cu cireuite SAU exclusiv propagat serial. 


şi NAND. Intrările sint A, B şi un semnal de 
transport Cm, iar ieșirile stat S (šuma) şi 
transportul. Cout. Tabela de adevăr mai pre- 
zintă și semnalele P şi G, funcţii numai de A 
şi B, care indică faptul că transportul este 
propagat sau generat in această poziţie. 


întirzierea produsă de două porți NAND și una OR exclusiv, Acest trans- 
port este necesar la calculul celei de-a doua sume din lanț. Timpul total, 
pentru o adunare pe b biți, va fi: 


te = sra HAD — Da (3.0 


unde +a este timpul de propagare al semnalului pe o poartă NAND. Igno- 
rînd timpul de acces la memorie soluţia se va obţine înmulţind cu N 
ecuaţia (3.1). Notăm acest timp cu T.: 


T: = Nea + 2(b — 1)7a] (3.2 


Soluţia bit-slice foloseşte fiecare sumator ca unitate independentă 
care sunează în paralel perechi binare ale unor cuvinte diferite. Transpor- 
tul obtinut intr-o ctapă trebuie păstrat de un registru pentru a deveni 
bilă de intrare în etapa următoare. Ilustrarea apare în fig. 3.4, iar 
timpul necesar adunării fieeărui bit-slice, este 


to = ma H a (3.3) 
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unde +, este intervalul de timp necesar memorării transportului. Timput 
total necesar rezolvării probleniei prin metoda bit-slice va fi: 


Th = [folie + a) Gay 


unde [...] notează funcţia parte întreagă. i [i 

Se poate vedea că timpul ne- 
cesar sumării bit-slice creşte cu 
N/b în timp ce în cazul soluţiei 
anterioare varia cu N. 

Este util să luăm în conside- 
rare și timpul de acces la memorie ;. 
de exemplu, prin adunarea tim- 
pului de acces la memorie, ty læ 
ambele ecuaţii (3.1) şi (3.3) se 
obţine următorul raport : 


Bit | Memorie 


— 
ln ti 2 a 


Te _ Nlsu + mra + 2(6 — 1)ra] 


e 
yYY s xY s xYS T, (N/b Ib [ar E TPA + 7) 
Li : i ! i. 
Li Dacă N este un multiplu al lui b, 
, prin simplificare se obţine : 


T, a ty + Trat 2(b— l)re 


T, Tu t Tat 7 


Fig. 3.4 Adunare paralelă, sau bit-slice. Evident dacă ru > Ta Prin so- 

luţia bit-slice se cîștigă prea puţin. 

Pare foarte probabil că acesta este motivul pentru care maşinile anilor '50 aw 

adoptat soluţia paralel pe bit, serial pe cuvînt. Este interesant de speculat 

cum ar fi evoluat; calculatoarele dacă diferenţa dintre tehnologia memorii- 
lor și a circuitelor logice ar fi fost în anii '50 mai mică. 

Astăzi este economic să se folosească și pentru memorii și pentru cele- 
lalte circuite aceeași tehnologie, realizindu-le chiar integrat pe aceeași 
capsulă VLSI. Astfel, raportul definit de ecuaţia (3.5) este semnificativ 
mai mare decit 1, chiar pentru dimensiuni modeste ae cuvîntului. Discuţia 
nu se încheie aici, deoarece procesele secvențiale pot îi accelerate adesea; 
cu noi tehnici. Acesta este cazul recurenţelor, aşa cum se va vedea în 
cap. ï, unde se descriu algoritmi paraleli. Adunarea a două numere de b 
biţi este un caz clasic de algoritm recursiv, ce poate fi calculat în log,b 
pași. S-a arătat că aceasta este limita inferioară (Winograd 1967). 
„Cum se poate realiza acest lucru cu circuite logice? Cheia o oferă 
definirea, celor 2 stări ale unui sumator, denumite propagare şi generare, 
notate pe fig. 3.2 cu P, respectiv G. Funcție de cele 2 valori de intrare 
care se sumează, ele definesc cele două stări: „se generează transport” şi 
„transportul va fi propagat”. Cu o pereche de astfel de stări, se pot defini 
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în mod simplu noile stări de 'generare şi propagare. De exemplu, fiind date 
Po P: şi G Gu, se definesc 2 stări noi P’ și G' cu: 


G&' = G, V (PLAGo) 


E7] 
A 


P' = (P AP.) 


Cu acestea, se poate defini un 
transport la ieşire pe baza celui de 
la intrare: | 


C = GV(CAP) (3.7) 


Fig. 3.5 prezintă modul de im- 
plementare a unităţii cu transport 
anticipat, pe baza ecuaţiilor (3.6) şi 
(3.7). Această unitate poate fi încor- 
porată într-o structură de tip arbore, 
care formează sumatorul cu trans- 
port anticipat. Soluţia pentru cu- 
vinte pe 8 biţi este reprezentată în 
fig. 3.6. Se poate vedea că, în ge- 
neral, sint necesare b sumatoare și 
b-1 unităţi pentru calcularea trans- 
portului. Timpul de rezoluţie pentru 
b >2 este determinat de timpul ne- 
cesar pentru obţinerea bitului sumă 
cel mai semnificativ : 


te = 24 + (log; b — 1)er 


du u 


Fig. 3.5 Un circuit cu transport anticipat, 
construit cu porți NAND şi inversoare, care 
are la intrare semnalele de propagare și gene- 
rare de la două poziţii binare (PO, GO şi P1, 
S1); pe baza semnalului de transport C, la 
ieşire se produc semnale de propagare şi gene- 
rare: modilicate (folosite pentru conectarea în 
cascadă), ca şi un semnal de transport, G. 


(3.8) 
X1T4 54 X0Y0 50 


Fig. 3.6 Un sumator cu transport anticipat pe 8 biţi. CL sint unităţile 
pentru producerea transportului ; FA sint sumatoaerle (vezi și fig. 3.2 
şi 3.5). 


unde ta este timpul necesar obţinerii lui C’ într-o singură unitate de calcul 
anticipat al transportului (fig. 3.5). Pentru valorile obișnuite ale lui b, se 
obține o îmbunătăţire considerabilă a timpului de execuţie, față de ecuaţia 
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(3.1), la costul dublării numărului de porţi. Pentru problema adunării a 
N perechi de numere pe b biţi, si această soluţie este mai lentă decit solu- 
ţia bit-slice, aga cum se vede din ecuaţia (3.9): 


Te t (logab — 1)rra 


- (3.9) 
T, Tu mat îi 

În acest caz, timpul de rezoluţie al unităţilor de calcul anticipat al trans- 

portului (e) s-a egalat cu timpul de re: zoluție al sumatorului, tpa 

Se pot aplica tehnici similare şi pentru calculul rapid al înmulţiri 
(Waser 1978) dar, din nou, este necesar un număr sporit de porţi logice. 
Astfel, am prezentat tehnici pentru construirea unor unităţi funcţionale 
mai rapide, dar și mai complexe, deşi creşterile relative ale costului şi 
eficienței nu vor putea, atinge niciodată valorile corespunzătoare : soluţiei 
Dit-slice (cel puţin atît timp. cît nu se poate realiza 7 > spa). 

Nu înseamnă că tot ansamblul hardware trebuie să se bazeze pe 
metoda bit-slice, deoarece pentru operaţiile cu un scalar trebuie folosit 
hardware mai complex. În acest mod, distribuţia puterii de calcul va de- 
pinde de anumiţi factori, între care cei mai importanţi sînt raportul cost; 
performanță și paralelismul anticipat al încărcării. 


3.3. Reţele de comutare 


3.3.1. Intreduecre 


Teoria şi constructia reţelelor de comutare sint fundamentale pentru 
succesul paralelismului pe scară largă, fezabil acum prin exploatarea teh- 
noiogiei VLSI. Multiplicarea pe scară largă, aşa cum a fost deserisă în 
$2.3.1., nu este viabilă dacă nu se pot stabili conexiuni fie între procesoare, 
fie între procesoare şi memorie. prin program. Astfel de conexiuni pot fi 
stabilite cu reţele de comutare-o sumă de comutatoare, într-o configuraţie 
de conectare dată. Teoria rețelelor de comutație a fost dezvoltată la început 
pentru industria. telefoanelor (Clos 1953, Benes 1965), dar convergenţa 
S cu industria calculatoarelor, retelelor de calculatoare, telefonia numerică 

acum cu domeniul calculatoarelor parálele au determinat creşterea. in- 
mea peniru ea. În continuare vom explora arhitectura rețelelor de 
comutare, cu un accent particular pe prelucrarea paralelă pe scară largă, 
Informaţii suplimentare pot fi găsite-în lucrarea recentă a lui Siegel (1985). 

Rețelele de comutare asigură un set de interconexiuni sau core*pon- 
dente între două mulţimi de noduri, de intrare şi de ieșire. Pentru N intrări 
şi M ieşiri există NY corespondențe bine definite de la intrare 1a ieșire, 
unde prin definit; bine se înţelege că fiecare ieșire este detinită în termenii 
unci singure intrări. Fig. 3.7 "lustrează acest lucru prin toate componentele 
bine definite între 3 intrări şi 2 iesiri. O rețea care realizează toate cele NY 
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corespondențe se numeste reţea de conectare generalizată (generalised 
connection network-GCN). 

Dacă limităm numărul conexiunilor numai la cel al corespondenţelor 
bijective, atunci vor fi bine definite N!. Fig. 3.7 mai prezintă sub-mulți- 
mea, corespondenţelor bijective; eie transmit; datele de 1a o intrare numai 
la o ieşire. Pentru ca această clasă de corespondențe să fie nevidă, trebuie 
să existe cel putin tot atitea intrări. cit 
şi ieşiri. O rețea; care realizează aceste N! (a) 
conexiuni se numește reţea de conectare 
(connection network CN). Posibilitatea 
evidentă de implementare a unei rețele , 
de conectare generalizate este cu o rețea 
în cruce completă,la care fiecare intrare Și 
poate fi conectată la tiecare ieşire. Fig. 3.8 
ilustrează această variantă, folosind două lb) 
reprezentări diferite. În prima (fig. 3.8 (a)) 
arcele reprezintă mulțimile de intrare și it A 
ieșire, jar nodurile reprezintă comutatoare. 

O reprezentare alternativă, o oferă graful ia d 

bipartit (fig. 3.8 (b)), unde nodurile repre- ” 

zintă mulțimile de intrare şi ieșire, iar 

arcele, conexiunile. Reţeaua în cruce com- 

pletă este reţeaua de comutare cea mai SE 
N 


a 


generală, dar sint: necesare NXM comu- 
tatoare. De aceea, pentru N mare, rețeaua 


N , 
Lă 
pi s iag 

va deveni foarte costisitoare. În general, ; X d "a 
o limită practică pentru N este în jur de i 
2 în timp ce numărul procesoarelor Ce Fig. 3.7 Toate conexiunile posibile de 
sint comutate poate îi de 2'* sau mai jatrei intrări la două ieșiri: (a) dela o 
mult. Rețele de acest tip s-au folosit la intrarea mai multe ieșiri: b) dela o 
Burroughs BSP, una cu N=16 și M=17, intrare la o foşire. 
jar cealaltă cu M=16 si N=17. 


ia) ibi 
9 G 
2 3 1 : Fig. 3.8 Două reprezentări ale 
rețelei de comutare în cruce de 
; i a la 4 intrări la 4 ieşiri. 


e t 
LI; 


CUT PUȚ 


Alte reţele de comutare se bazează fie pe rețele în cruce unice tie pe - 
rețele în cruce incomplete. Acest aspect va fi discutat ulterior, dar va trebui 
să introducem întîi o notație și să definim niște perinutări care vor sım- 
plifica considerabil discuţia. 
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3.3.2. Citeva permutări fundamentale 


O permutare pe o mulţime ordonată de N noduri se poate defini cu o 


funcţie x(x), unde x şi z(x) trebuie să fie de asemenea, bijectivă. De exem- 
plu, funcţia: 


X. la r 
eul) = E 26 + | [alee + 2 (3.10) 
2 X ; 
009 ra sea 000 defineşte o permutare cu 
CG1 GET Ee idi schimbare (fig. 3.9) 
t19 310 010 Totuşi, pentru multe per- 
941 î X s 011 044 mutări se găseşte adesea că 
4 7 se poate obține un mod mai 
90 p ile 100 100 > aa a 
191 Pip 104 Simplu de definire a permută- 
113 stă 10  Tiipe baza reprezentării bina- 
X iy re a lui x. Astfel 
11 vii TIA 
En En; 


X= (bb ...9 bı) => 
= BP e eg e 
„Lb, 0<b <1 


reprezintă adresa binară a 
unui element din mulțime. Se 
pot defini permutări cu adre- 
sele lor binare. Această no- 
Ei; tație a fost folosită cu un 
efect salutar în mai multe 
lucrări referitoare la manipu- 
larea datelor şi rețelelor de transfer (Flanders 1982, Parker 1980, Nassimi 
Sahni 1980). 


(i) Permutarea cu schimbare. ; 
Permutarea cu schimbare definită mai sus, poate fi definită acum mai 
simplu în termenii reprezentării binare a lui x 


ew (x) = {bm ee -y Des ++- ba) (3.11) 


Bara notează complementul bitului corespunzător. Astfel se poate defini 
a K-a permutare cu schimbare prin complementarea bitului de rang K 
din reprezentarea Lui X. 


> _- >n oo0o’ O 
= =- O Q- á- OO 
28 O- 0 = OO 
- e . u a O O 
- CE CO Da Do 
GC -O= sya 9 


Fig. 3.9 Permutări cu schimbare. 


(ii) Permutarea cu amestec perfect (perfect shuffle) 

Această permutare este astfel denumită deoarece poate îi realizată 
prin împărțirea mulţimii în două și interealarea celor două mulțimi obţi- 
nute ca în cazul amestecului perfect de cărți de joc (vezi fig. 3.10). Această 
permutare corespunde la deplasarea circulară la stinga a unei unităţi în 
reprezentare binară a mi x. 


(x) = {Da-i s Da-2, -3 D Da (3.12) 
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Se pot defini de asemenea, pe baza deplasării la stinga ciclice cu K biţi, 
cei mai puţin semnificativi sau cei mai semnificativi, subamestecul K, 
Gw) (subshufile) și superamestecul s% (supershufile). 


m(x) = {bns ...9 bu bu =.. Dis Di} (3.13) 
a(x) = {bn - + + p Dn-rtis Das Dax = = + > Da} (3.14) 
Şi acestea sint prezente în 9 00 e——————. 099 = 
fig. 3.14 pentru n=3 şi k=2, 001 e. 001 
În mod limpede 010 ` 010 i 
> 011 011 
a (=) = Sm (X) = o(X) 100 100 
şi 101 101 
ati(x) = om (X) =X. 110 ~% 110 
111 R aii 111 


Se mai observă în fig. 3.10 R S 
că subamestecurile (biții cei o 0 0e———e 000 e—a 000 
mai puțin semnificativi) tra- 00 400 Ai 001 e—a 001. 
tează mulțimea ca un număr 010 010 010 
de submulțimi, execntind un 0119. 011 pă 
amestec perfect cu fiecare. : ~ ; } ~ : , v 
Superamestecurile, pe de altă ,, a A i 9 MIRI 
parte, modifică o mulțime  11140———  1110—— 111 
întreagă, dar cresc numărul da gi 
de conexiuni. Fig. 3.10 Permutări cu amestec perfect. 


(iii) Permutarea fluture 
Permutarea fluture (fig. 3.11) este definită peste reprezentarea binară 
a lui x cu schimbarea primilor şi ultimilor biţi - 


B(x) = (bus ba: Das Da} (3.15) 


Ca și la permutările cu amestec se pot defini al K-leu subifluture sau al 
K-lea super-fluture a lui x. În primul caz e schimbarea primilor biţi cu 
cei de pe poziția K și mai departe, în timp ce pentru al doiiea caz se schimbă 
biții n cu (n-k-1). 


Sax) = br eN > Ditis bis Þbr-1s eweg br} (3.16) 
p™(x) => bau -e + 3 Dn-r+2s Day Da-i + + = > ba) (3.17) 
Și aceste permutări se prezintă în fig. 3.11, pentru n=3 şi k=2. Din nou 
(x) = Pax) = P(X) 
şi 
BHI) = Bala) = x. 
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(IV) Permutarea cu inversarea biților 


Această, permutare, după cum sugerează şi denumirea, se defineşte 
peste reprezentarea binară a lui x prin inversarea, ordinii biţilor : 


a(x) = fb LERTE Day (3.18) 
sts saz „O aplicație unde inter- 
aşi 29: vine această permutare este 
H ta algoritmul transformatei F 
pb 04 3 rapidă (vez. $5.5). | 
ep: pi Ca și pentru cele două 
prd ni permutări anterioare se pot 
i. Să defini două variante ale aces- 
LE: 1133 tei permutări care afectează 
1 tii cei mai puţin semnificativi 

K biţi sau cei mai semnifica- 
038 e jig oe tig tiviK biţi („sub bit reversal” 
a -—s 991 soj); Și respectiv „super bit re- 
3 4i h a $ —— at versal”). i 
E aaa pi Xp ii aut = 
3 e—a j??? iis ripa = 
E == — 9i sa a II: = (hrs - + 3 Dieas Pas Das «e, bu) 
E D 113 — -ə 11i (3.19) 
NS Ia G 
Aa: zi ž pd- g p™(x) = a-i 1 Dan-r+2 Dig 
Tig. 3.11 Permutări fluture şi cu inversarea biților. sag Piy bau Ea „bul (3.2 


Fig. 3.11 prezintă şi acest tip de permutare pentru n=—3. Totuşi, cele 2 
permutări nu sînt întotdeauna echivalente, aşa cum se va arăta mai tir- 
ziu, în cadrul subeapitolului de algebră a permutărilor. 


(V) Permutarea cu deplasare 


Această ultimă permutare se descrie mult mai usor fără a folosi re- 
prezentarea binară a lui x: 


a(x) =x + 1|ą m (3.21) 


Definim din nou sub-deplasarea cu biții cei mai puţin semnifieativi şi 
super-deplasarea cu biții cei mai semnificativi. În termenii reprezentării 
binare a lui x, ecuaţia (3.21) defineşte adunarea, binară peste cimpul cu n 
biţi, ienorînd depășirea. Prin urmare, sub-deplasarea şi super-deplasarea 
pot îi definite astfel: 


(0) = ÎX + Lig + HR 68.22) 
ago(X) = | x + 2] pa. (3.23) 


Acestea sînt prezentate în fig. 3.12 pentru n=3 şi k=2. 
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3.9.3. Algebra permutuţiilor 


Pentru a defini permutaţiile mai complexe şi echivalente vom dori 
să combinăm şi să manipulăm permutări simple descrise mai sus. Alge- 
bra funcțiilor descrie tocmai aceasta. Combinarea a două funcţii se no- 
tează cu p(c(x)), ceea ce defineşte o permu- 
tare în termenii unui amestec perfect urmat 
de o inversare a biţilor. Folosind grafuri bi- 
partite, aceasta e echivalentă cu conectarea 
ieșirilor amestecului la inversarea biţilor. 
Pentru a simplifica expresia și în acelaşi 
timp pentru a păstra sensul deplasării infor- 
maţiilor de la stinga la dreapta în grafurile 
bipartite, se va abrevia expresia de mai sus 
cu op. Precedentul pentru aceste notații este 
combinaţia operatorilor în APL (Iverson 
1979). De asemenea, cs va fi abreviat cu o?. 


IP MFPu N = 


Si 
A FU Fu Da G 


0 0 0 
Ca în orice algebră trebuje definită o 4 4 4 
unitate sau permutare identică pe care o , 3 2 
notăm cui. Această permutare păstrează o o 3 3 
ordinea mulţimii de intrare : si 
aa h h 
; i e ti 5 5 
Ea 2 

i(x) = X (3.24) ss PSS, up 
? TENN EP 7 7 ze 7 

Avind definiţia permutării identică, se dz) g 


poate defini inversa unei aplicații (map- 
ping). De exemplu, inversa permutării cu 
amestec perfect se notează cu o-1şi o-o? = o`l. g=i. Aplicația inversă 
poate fi înțeleasă prin urmărirea grafului bipartit de la dreapta la stînga, 

` Folosind algoritmul permutării vom stabili citeva identități impor- 
tante. În cele mai multe cazuri aceste identități pot fi verificate folosind 
reprezentarea binară a lui x. 


Prima identitate se referă la relația dintre sub- şi super- permutare, 
unde pentru permutarea generală m, 


Fig. 3.12 Permutări cu deplasare, 


Ti = o"mgjo (3.25) 


Prezentăm în continuare un grup de identități care se referă la in- 
versa permutării definite anterior : 


e; = Ew (3.262) 
Fă) = fw (3.26b) 
Pa = Pow (3.260) 
aa = all (3.26d) 
sa! = că! (3.26e) 


15=6, 72 225 


Un alt grup de identități se referă la relaţiile ce se pot defini între dife- 
rite permutări : Și 


Em = owk) (3.27a) 

ow = Pw- -Bo (3.27b) 

Pa) = I + +9) (3.27c) 

Ultimul grup de identități caracterizează numai prima sub-permutare + 
Sa =i {3.28a} 

Pw =i (3.28b) 

i Bow =i (3.280) 


Ca un exemplu al utilizării algebrei şi identităților definite să stabilim 
ce a fost evident în fig. 3.11 pt. n=3, p = 6. Din ecuaţia (3.27 b) și (3.276) 


e = Pofon 


Deoarece Bu este permutare identică (ec. 3.28c) și Ba este propriul 
invers (ec. 3.26 c) 


Pra) = Ba) 
3.3.4. Reţele eu un singur etaj 


Rețelele cu un singur etaj constau dintr-un etaj fix sau unic de comu- 
tatoare. Astfel, pentru un masiv cu P procesoare, rețeaua ar consta din- 
tr-un masiv unic de selectoare cu P căi. Acest tip de rețea este distribuită, 
cu ușurință, selectorii fiind ele- 
f mente hardware ale procesoa- 
WAGA -D-H relor. De obicei acest tip de 

rețea este asociat comutatorului 
inter-procesoare din fig. 3.1. 

În mod normal, rețelele cu 
un singur etaj stabilese direct 
un număr limitat de permutări. 
Alte permutări mai generale, pot 
fi realizate iterativ. Astfel, de 
exemplu, dacă reţeaua asigură 
permutarea cu deplasare «, 
pentru a realiza ah unde 
ah-k — a? sînt necesare 2% ite- 
raţii prin reţea. 

. Vom descrie în continuare 

un număr de reţele cu un singur 
etaj, definind comutatoarele în termenii mulțimii de permutări de care 
le pot genera. Astfel: 


pÁ aa Pa a aaa 


Fig. 3.13 Reţeaua inel Ry). 


SW = EL: PE Tm} 


defineşte comutatorul SW, care execută m permuiări, m sau 7, Pînă la Tm. 
În discuția ce urmează vom presupune ca P = 2”, dacă nu se specifică 
altceva. 
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(i) Reţeaua cu inel 

Aceasta este cea mai simplă rețea; este formată dintr-un inel de 
procesoare, cu un singur sens de circulaţie a informaţiilor. Fig. 3.17 ilus- 
trează această reţea şi se poate observa că avem de-a face cu o rețea cu 
accesiuni încrucişate incompletă definită ca : 


R = ui, aup)) 


(ii) Reţeaua vecinătătii proxime 
Aceasta este o extensie simplă a reţelei în inel care permite o circula- 
ție bi-direcţională a informaţiilor. Se ilustrează în fig. 3.14 şi se definește 
astfel : 
NN = aa i ap? 


Această reţea este simplă şi ieftină dar nu este indicată pentru un nu- 
măr mare de procesoare. Oricum, poate fi generalizată la mai mult de o 
dimensiune. De exemplu, dacă P = Q* şi Q = 2%, atunci rețeaua K-di- 
mensională poate fi definită astfel: 


IN f -1A ; d a a. ]— z 
NN w == {oiu xw Ga DL Giat O(ia) : l=1,.. E) 


Calculatorul ICL DAP foloseşte acest tip de reţea cu k = 2 și q=6, 


6 — 6 —l i; 6 -8 
Spar = {oin San A2 e l, Ae ouzo a2) 


Aici permutările pot fi considerate . 
ca deplasări pe direcția nord, sud, o [1 ki kt k: Es kieki 
est şi vest pe o grilă bidimensio- (O — ć —ć — J 


nală, conectată la capete. Și 
ILLIAC IV are o astfel de reţea 
bidimensională cu q = 3, deşi aici 
periodicitatea se defineşte cumva 
diferit : 


a3 pla li 3 —8 
Su=i Aetia) T6) 06) ly a)» Sle Za F } 


Este interesant de observat 
ce se întîmplă cind considerăm. 
cazul limitativ al rețelei cu k= 
=p=log,l. Aici q=1 şi din (3.2.7a) 


ALV- 
AMF UN 


01234567 
NNa = ÎS Lil = Lit Fig. 3.14 Reţeaua vecinătăţii proxime NN 


Astfel este descris hipercubul binar a cărui structură constă dintr-un 
hipercub cu p dimensiuni şi 2 procesoare pe fiecare muchie. Fig. 3.15 
exemplifică structura cu p = 3, unde se observă că schimbarea k este 
echivalentă schimbării inferioare peste planul de schimbare al k-lea (e 
prezentat. planul k = 1) 
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(iii) Rețelele cu amesteo perfect 

Amestecul perfect reprezintă permutarea puternică pe care se poate 
baza o rețea (Stone 1971, Lang şi Stone 1976, Lang 1976). Definim mai 
jos comutatorul cu amestec perfect, așa cum este prezentat în fig. 3.26: 


PS=(oây i» o} 


Se poate observa că acesta nu este un comutator foarte mulțumitor, 
deoarece lasă neconectate 4 submulțimi de procesoare. De aceea, s-au pro- 
pus reţelele cu schimbare și amestec perfect (Stone 1971) şi cu vecinătate 
proximă şi amestec perfect (Grosch 1979). Acestea sînt definite mai jos 
şi ilustrate în fig. 3.17 pentru N =8 


PSE = (og i» €a) ap) 


m a | -l : 
PSSN = {op ay În ao Sin) 


Atoz = 
acupuwn=5 


mank -- Fig. 3.15 Reprezentare a hipercubulu y 


f Că A vi ` binar cu 8 noduri. Se prezintă primul 
soh sila Ag E rp A ca Pa plan de simetrie. a 


Fig. 3.16 Reţeaua cu amestec per- 
fect PS). 


acoz— 
sswruv=e 


Fig. 317 Rețelele cu schimbare și amestec 
perfect PSE) şi a vecinătăţii proxime- 
şi cu amestec perfect PSNN); liniile 
întrerupte transformă PSE(,, în PSNN(1)- 
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Ambele rețele pot îi generalizate pentru mai mult de o dimensiune, 
la fel ca pentru rețeaua vecinătăţii proxime. Totuşi în cazul limită, k = P, 
ambele sînt echivalente cu hipercubul binar. 


3.3.5. Citeva proprietăţi ale rețelelor cu un singur etaj. 

Reţele sau comutatoarele cu un singur etaj pot fi folosite iterativ 
pentru a simula o rețea, de conectare care așa cum s-a menționat anterior, 
poate realiza, toate cele P! aplicaţii bijec tive ale intrărilor la ieșiri. Prin 
iterajţie înțelegem că după un pas prin rețea, ieșirea la un procesor dat va 
deveni intrarea aceleiaşi sau altei structuri a reţelei. Astfel pentru o reţea 
dată este important să ştim cît de multe iterații vor fi necesare pentru a 
defini o structură de comunicaţie. Viteza, de calcul este influențată, mai 
ales dacă este necesar un număr mare de iterații. 

Pentru a compara reţelele discutate anterior definim conceptul de 
distanţă în reţea. De exemplu, distanța între nodurile i și j în reţea se 
defineşte ca numărul de iterații necesare pentru a stabili aplicaţia, i>j. 
Apoi definim parametrii distanței, care sint o funcție a rețelei date şi 
dau informaţii despre eficiența reţelei. Acești parametrii au fost iniţial 
deiiniţi de Jesshope (1980b, 1980c) și au fost folosiţi pentru estimarea 
timpilor necesari transferului informaţiilor în masivele de procesoare 
(Jesshope 19803, 1980c). Un studiu mai complet privind simularea unei 
rețele de. către alta se poate afla în lucrarea lui Siegel (1985). 


G) Măsura distanței maxime 

Măsura distanței maxime Da) pentru o rețea k-dimensională, dă dis- 
tanța maximă între oricare 2 noduri din rețea. Reprezintă o măsură a 
eficienței rețelei pentru probleme care implică comunicație globală. Într-o 
dimensiune a unei rețele R, procesorul care este cel mai depărtat de pro- 
cesorul i este i—1, iar pentru reţeaua NN este procesorul i+-N/2. Jesshope 
(1981b) dä un argument inductiv care introduce reducerea la scară prin K, 
folosită în tabelul 3.1. Pentru rețeaua cu amestec perfect este mai ugor de 
folosit reprezentarea binară a adresei nodurilor. Astfel pentru PSE, nodul 
i=(Pas Da-ap. - + D1) este cel mai depărtat de nodul j = Da pe „bul. 
Această “aplicatie poate fi realizată în q-l amestecuri perfecte (deplasarea 
biţilor la stinga) şi q schimbări de ordinul 1 (complementarea primului 
bit). Pentru reţeaua, PSNN, nodurile cele mai îndepărtate sint i și i+), 
unde j = (10101...). Din nou, sînt necesare q-l amestecuri perfecte 
dar numai q/2 deplasări (adună 1 la i). Evident, distanţa maximă în re- 
teaua PS este infinită. Toate aceste rezultate sint prezentate în tabelul 3.1. 


Tabelul 3.1. Přopřletaji ale reţelelor cu un singur etaj. 


p iat Reţea 
roprietatea EE 
NNa) | o PS@) |  PSEG) |  PSNNG) 
A ! s 
Distanţa maximă | | 
Du | k(Q—1) KQ2 i œ- k(2q—1) | k(q+q/2—1) 
Fan out t Fon | x (Q—1) k(Q—1) 00 k(2q—1) k(2q—1) 


— 
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(ii) Parametrul fan out, fan in 


Parametrul fan out, fan in reprezintă o evaluare a distanţei necesare 
pentru propagarea unei informaţii la toate nodurile din reţea sau, invers, 
reducerea (colectarea) informaţiei. Acest parametru este important pentru 

mulți algoritmi „divide et impera” (vezi 

a capitolul 5). Vor fi necesare un număr 

í de permutări paralele (posibil sub con- 

Copie 1 N Deplasareli-m:+1]  trolul boolean). De exemplu, pentru o di- 
mensiune a reţelelor NN sau R, un astfel 

de algoritm este prezentat în fig. 3.18. Se 

Te poate observa că pentru o dimensiune, 

Ke numărul total de permutări cu deplasare 

Pa Pta ea este Q—1=1+4+2+4...+Q/2. Pentru 

E A reţelele PSE și PSNN, este indicat să se 

N INI A folosească reprezentarea binară a adresei 

i NIN XA sau identificatorului fiecărui procesor. AL 
es N ES goritmul este reprezentat schematic în 

TEE i a fig. 3.19, unde se arată propagarea datelor 
LN AAN dela procesorul numărul 0 la toate .cele- 

ie 12 13 ish i516 is? lalte. Să considerăm întîi reţeaua PSE :. 

Fig. 3.48 Uustrare a algoritmului de Permutările cu amestec si schimbare sint 
transter al unci date la toate nodurile definite în $3.3.2 cu ecuațiile (3.11) şi 
unui inel T sau ale pael relele cu (3.12). Aceste ecuații complementează 

VECINA ALO: PERENE 8 bitul cel mai puțin semnificativ al adresei 
unui procesor şi execută o deplasare circulară la stinga a adresei respective. 
Problema poate fi specificată mai uşor ca una de generare a adreselor 
tuturor procesoarelor plecind de la adresa sursă prin complementarea 
bitului cel mai puţin semnificativ al adresei şi deplasări circulare la stinga, 

Se poate deduce intuitiv o limită inferioară pentru numărul de paşi 
necesari finalizării acestei operaţii. Cu operaţiile care sint disponibile, 
adresa „cea mai îndepărtată” de adresa sursă este cea obţinută prin com- 
plementarea ei. Complementarea unei adrese cu n biți necesită n operaţii 
de complementare (numai a bitului cel mai puţin semnificativ) şi n-1 operaţii 
de deplasare, rezultind un total de 2n-1 operaţii. Fig. 3.19 arată că prin 
mascări corespunzătoare se pot genera toate adresele prin complementarea 
adresei sursă. 

Implementarea acestui algoritm pe reţeaua PSE necesită numai 
jumătatea numărului de operaţii de schimbare, fie prin deplasarea la 
stinga sau la dreapta, funcție de paritatea sursei datelor. Prin urmare, 
se poate folosi același algoritm şi pentru rețeaua PSNN. Schimbările mar- 
cate pare sau impare pot fi simulate în acelaşi timp folosind deplasările 
la stinga sau la dreapta ale rețelei NN. Într-o formă diferită, algoritmul 
apare în fig. 3.20, iar rezultatele anterioare sint ordonate în tabelul 3.1 * 

Pentru a compara eficiența, rețelelor descrise, vom analiza toate con- 
figuraţiile posibile ale unui masiv cu 4096 procesoare. Vom avea nevoie 
şi de o estimare a costului unei anumite configurații. Vom considera o 
funcţie de cost C, definită prin numărul permutărilor ce pot fi realizate 
de reţea, excluzind permutarea identitate (de exemplu, C=m-—1). În 
tab. 3.2. apar evaluările lui Du și C pentru exemplul cu 4096 procesoare. 
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Se poate vedea din tab3.2.că rețelele PSE și PSN sînt cele mai eficiente 
entru k=1, dar că reţelele R și NN devin mai avantajoase pentru k =2. 
fa continuare creşterea dimensiunii influențează negativ comportarea 
rețelelor R gi NN. Rețelele PSE și PSNN nu produc beneficii la creşterea 


Fig. 3.19 Ilustrare a algoritmului de transfer al unci date la 
1 toate noduriele unei reţele cu schimbare și amestec perfect 
i © PSEg) 
Schimb Copie Amestec 


Fig. 3.20 Diagramă ce prezintă operațiile de transfer în cazut 

unei rețele cu schimbare și amestec. În partea superioară a 

tabelului se prezintă adresele binare şi zecimale ale procesoa- 
0060 relor, iar operaţiile executate, în dreapta tabelului. Cruciu- 
Jiţele reprezintă propagarea informaţiei de la adresa 0. 


4 


etc 
00 0 :0 
ag": 9 
î 1 A 0 
ES R É 
3 2 1 0 Decimal 
z X Exchange 
XO OK Shuttle 
4 Li x X 
i 
RR pi 
0111 Kono 4001 < 0100! 
X xX X 
RR ES E 


i t Li t 
41H10 NO0 1011 1070 O0 ince 


Tabelul 3.2. Distanţa maxină D Ja un masiv cu 4096 procesoare, Funcţia de cost C 
este trecută în paranteze. 


kQ | Ru | NN | PSE(i) | PSNNu) 
1 4096 4095(1) 20482) 2343) 1⁄4) 
2 64 126(2) 644) 22(6) ` 16(8) 
3 16 453 246) 21(9) 15(12) 
4 8 2844) 16(8) 20(12) 16(16) 
6 4 18(5) 12(12) 18(18) 12424) 
12 2 12(6) 12412) 1212) 12412) 


dimensiunii, pînă cînd k=p, cînd se poate observa că nici o rețea nu este 
mai bună ca celelalte. Într-adevăr se poate arăta cu uşurinţă, folosind 
algebra permutărilor din $ 3.3.3. că cele patru reţele sînt echivalente; 
diferenţe de cost reflectă lărgimea de bandă crescută datorită permutări- 
Jor echivalente multiple. ? 


sian 231 


Probabil nu este surprinzător că rețeaua cea mai des întilnită în 
cadrul masivelor de procesoare este rețeaua NN bi-dimensională, ca la 
ILLIAC IV (McIntyre 1970), ICL DAP (Flanders et al 1977), Goodyear 
MPP (Batcher 1980), GEC GRID (Robinson și Moore 1982), NTT AAP 
(Komdo et al 1983), LIPP de la Universitatea Linkoping (Ericsson şi 
Danielson 1983), NCR GAPP (NCR 1984) şi RPA de la Universitatea 
Southampton (Jesshope et al 1986). O excepţie de dată recentă o reprezintă 
connection machine (Hillis 1985) care foloseşte cel puţin la nivelul VLSI, 
cazul limită al oricăreia din aceste rețele, cu k=p. Această rețea este 
denumită adeseori hipercubul binar sau doar reţeaua cub (vezi fig. 3.15). 

Ne putem întreba de ce rețeaua PSE,, nu este preferată, 'deoarece 
reprezintă o soluţie foarte eficientă pentru comunicațiile la distanţă mare. 
Probabil există mai multe răspunsuri referitoare atît la utilizare, cit şi 
la implementare. Mulţi algoritmi necesită. comunicaţii locale, de obicei în 
forma vecinătăţii proxime, iar reţeaua PSE are nevoie de 2log,(N-1) 
iterații pentru simularea unei rețele NN bi-dimensionale (Siegel 1985). 
Aceasta, este, de asemenea și distanța maximă în rețea. Se poate verifica 
ușor acest lucru prin luarea în considerare a situaţiei că într-o reţea NN, 
0 şi N sint adiacente și totuşi sînt cele mai îndepărtate în rețeaua PSE. 
Reteaua PENN depăşeşte unele din aceste limite, de aceea rețeaua PSNN 
bidimensională a fost aleasă în mai multe lucrări ştiinţifice ; posedă cone- 
xiunea vecinătăților proxime folosită în mulţi algoritmi, dar are şi pro- 
prietăţi suplimentare de comunicaţie la distanţă mare. Motivul că această 
reţea nu a fost folosită, după cunoştinţele noastre, în nici.o implementare 
practică, constă în aspectele ridicate de implementarea propriu-zisă. 

Spre deosebire de reţelele NN, cele care se bazează pe permutarea 
amestecului perfect nu pot fi partiționate. Dacă împărţiţi o rețea NN, în 
jumătate, poate fi conectată numai cu două fire; chiar şi o reţea NN 
împărțită necesită numai N12. Ce este mai important, fiecare jumătate a 
rețelei NN va funcţiona ca o rețea NN de dimensiune redusă. Totuşi, 
dacă orice rețea care conține permutarea amestecului perfect este împăr- 
ţită în două „vor fi necesare N/2 fire pentru conectarea fiecărei jumătăţi şi 
nici una nu va putea funcţiona independent. Implicaţiile sînt : în proiec- 
tare, deoarece dacă reţeaua: nu poate fi partiționată, trebuie proiectată ca 
ansamblu, existînd puțină regularitate la nivelul submodulelor; în al 
doilea rind, privind fiabilitatea, aceasta realizindu-se prin redundanţă, 
dar fără regularitate, ceea, ce este foarte scump ; în al ireilea rînd, privitor 
la numărul firelor dintre submodule, deoarece în sistemele moderne acestea 
sînt mai costisitoare şi influențează negativ performanța. Toate cele trei 
aspecte cresc în importanţă în era dispozitivelor VLSI (vezi cap. 6). 


3.3.6. Rețele cu mai multe etaje i 


În unele situaţii este necesar să se comute un sei de resurse la altul, 
astfel ca orice membru al unei mulțimi să poată accesa fiecare membru 
al celeilalte mulțimi. Un astfel de exemplu se întilneşte la conectarea 
procesoarelor la blocurile de memorie, ca în fig. 3. 1; unde dorim să creem 
un sistem multiprocesor cu acces, complet, la memoria partajată. Poate 
fi necesar ca un anumit procesor să aibă nevoie de acces la fiecare bloc de 
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memorie din sistem. Pentru aceasta este necesară o rețea de conectare 
completă. 

Deja am întilnit reţeaua cu accesări încrucizate (fig. 3.8), care este o 
reţea completă şi am subliniat dezavantajul ei principal — că numărul 
de porți necesare pentru implementare crește cu pătratul intrărilor. Pentru 
a înţelege mai bine, să o considerăm ca alternativă la rețelele cu un etaj, 
considerate în secțiunea anterioară, peniru a conecta 4096 procesoare. 
Ar fi necesari cel puţin 16 milioane tranzistori, dar, probabil, de mai multe 
ori această valoare pentru un comutator cu o performanță rezonabilă. 
Comutatorul NN bi-dimensional, pe de altă parte, poate ti implementat 
cu aproximativ 25000 tranzistori. 

De asemenea, rețelele cu mai multe etaje pot reprezenta o alternativă, 
mai ieftină la comutatorul în cruce, atunci cînd este necesară o intereonec- 
tare completă. Aceste reţele folosesc un număr de comutatoare în cruce, 
cele mai obișnuite construindu-se pe baza unor comutatoare 2x2. Acest 
comutator, reprezentat în fig. 3.21, poate genera două permutări ca şi 
două structuri folositoare pentru modul emisie (broadcasting). 

Dacă pentru controlul comutatorului se foloseşte un bit, atunci vor 
fi selectate numai permutările din fig. 3.21 (a, b). Cu un masiv de N/2 


0 
3 
01 
(a) (b) i 
0 a 0 0 pad 9 1 
1 e i 1 1 
tt) tdi 
' 0 


DEC N = ai 1 N azi 


mig 9 
1. dă 1 = 1 e 1 


Fig. 3.21 Ur element de comulare Fig. 3.22 Reţeaua Benesi (a) reducerea unui comu- 
2x2 şi conexiunile posibile. tator în cruce NXN la duă comutatoare în cruce 
i (N/2) x (N/2) şi două comutatoare cu schimbare; 
(b) reţeaua binară Benes cu reducere și simplificare 
completă (N = 8), 


astfel de comutatoare putem defini un comutator cu schimbare de ordinul 
k, o reţea cu un singur etaj care necesită N/2 biţi. de control : 


Em = (e i) = owEwom l (3.29) 


Dacă se folosesc doi biţi de control pentru fiecare comutator 2x2, se pot 
genera toate cele 4 posibilităţi de comunicare eare apar în fig. 3.21. În acest 
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mod putem extinde ecuaţia (3.29) peniru a obţine comutatorul cu schim- 
bare generalizat de ordinul K, care necesită N biţi de control. 


GEw = {1 Loko, i} = cp GEucă (3.30) 
Aici lw) și U sint structurile inferioară şi superioară pentru emisie, care se 


definesc cu: 
latx) = {bn; e ea Dieis l; Pr-15 + - - bib 


Uw(X) = ba e. » Dre 0, Dr-1; e..} bi} 


(i) Refele conexiune 

Benes (1965) a demonstrat că o rețea cu accese încrucişate completă 
N xN poate fi redusă la donă astfel de reţele N/2xN/2 împreună cu două 
reţele cu schimbare a N intrări. Fig. 3.22(a) prezintă acest: rezultat, iar 
dacă notăm reţeaua cu accesuri încrucişate NXN cu Xm, unde n=log,N, 
atunci aceasta poate fi descrisă cu: 


Xim = Bo Xta- Bay (3.31) 
Evident, această reducere poate continua recursiv | 
Xw = EwEu-1Eu-2) -E Xa) Eo.. En) (3.32) 
Folosind relația din ecuația (3.23) se obține : 
Xin = ow En) -s e00) Eao). - -ow Eom 


Se poate simplifica în continuare, observind că pre- și post- permutarea 
intrare şi ieşire ale unei rețele nu fac decit săredefinească ordinea acestei 
mulţimi. Astfel se obţine următoarea expresie pentru reţeaua Benes binară 
(Lenfant 1978) : 


Bon) = Xin) = E;n) on Eusmo .. Va Eusio) .. ‘cm Ea) (3.33) 
Rezultatul se prezintă in figura 3.22(b). Prin definiţie aceasta este o rețea 


conexiune totală ce asigură N ! permutări posibile ; mai mult, dacă generali- 
zăm folosind GE), toate cele NY aplicaţii bine definite pot fi executate. 


(ii) Rețele cu schimbare gi amestec 

O altă clasă de reţele care nu sint conexiune totală sint cele denumite 
cu schimbare gi amestec. Aici vom prezenta 4 astfel de reţele, omega 
(Lawrie 1975), cubul binar n-dimensional indirect (Pease 1977), banyan 
Goke şi Lipowski 1973) şi R (Parker 1980). În continuare le-am notat cu 
O, 0C, Y şi R: ' : 
Qim = (om E)” 


Co) = Enfo Eab o -BoE ' 
Ya = EafoEka bw.. Boa 


~1 -l ~l 
Ro = Enca Ea Gint.» Sa) ES 
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Se observă că reţeaua banyan este cubul binar n-dimensional fără permu- 
tarea finală și că rețeaua R provine din prima jumătate a reţelei Benes 
binară, urmată de un amestec. O altă observaţie importantă demons- 
trată de Parker (1980) este relaţia dintre Q, C şi R, care verifică următoarea, 
identitate : 


—2 eng i ae să 
Da) = Co = Ra =F mam 


În fig. 3.23 se prezintă rețelele gy- : 
omega şi cubul binar n-dimensional. ọ — 

Deşi aceste rețele nu realizează 
conversiunea totală, asigură o clasă 
foarte bogată de permutări folosite 
pentru multe alte aplicații ale masi- 
velor de procesoare. Pe lingă operații 
cu matrici sînt foarte utile pentru 
FFT şi algoritmii înrudiți (Pease 
1969) ca și pentru tehnicile de sortare 
(Batcher 1968). Pentru mai multe 
detalii privind reţelele cu mai multe 
etaje recomandăm lucrarea lui Siegel 
(1985). 


La) 


LILY EF et 
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3.3.7. Controlul rețelelor 


an Fun =>o 


Pînă acum nu am spus nimic 
despre modul cum se programează co- J 
mutatoarele sau selectoarele unei re- 
tele cu un singur sau mai multe etaje. Fig. 3.23 Reţele cu schimbare şi amestec: 
Pentru o reţea cu un singur etaj care (a) rețeaua me ar n-cub binară 
poate realiza m permutări cu P proce- 
soare, sint necesari Plog,ny biți de control pentru controlul comutatorului. 
De obicei, reţelele cu un singur etaj sint controlate cu un singur flux de 
instrucţiuni. În acest caz se emite în masiv către toate procesoarele un 
cimp de control unic cu log;m biți. Există unele excepţii şi s-a arătat, 
folosindu-se sistemul RPA (Jesshope et, al 1986), căposibilitatea procesoru- 
lui de a programa comutatorul, pe baza unor condiţii locale, este o ex- 
tensie foarte puternică a modelului SIMD. Sistemul RPA este descris cu 
unele detalii în § 3.5.4. 

Pentru comutatorul în cruce, cu N intrări, sint necesari N? biţi de 
control, cite unul pentru fiecare punct de intersecţie. Pentru a stabili o 
conexiune între intrarea i și ieşirea j, este suficient să se modifice cores- 
punzător bitul din poziţia i, j a matricei punctelor de intersecţie. Dacă 
sînt acceptate numai corespondențe bijective, atunci la fiecare linie de 
intrare se poate conecta numai o coloană de ieşire. În acest mod, numărul 
biţilor de control poate fi redus la N logN, prin codificarea numerelor 
coloanelor. — ` 

Situaţia nu este chiar aşa de simplă şi probabil nu este încă nici bine 
înțeleasă dacă se consideră, rețelele cu mai multe etaje. Acestea, necesită 
tot O(Nlog,N) biţi de control, unde constanta depinde de topologie și de 
faptul dacă reţeaua este generalizată pentru a putea caccuta 1ețelele de 


a Dune 


235 


Mg 


Adresu 


prin folosirea schemelor de memorare asimetrice. Fig. 3.25 prezintă o 
ca și Shapiro (1978) au studiat scheme de adresare asimetrice mai generale, 
(4x4) care permite accesul fără conflicte 
A31 | A32 [433 [A3u | la linii, coloane şi ambele diagonale ma- 
jore. Totuşi, nu se elimină conflictele 
Firma Burroughs a proiectat me- 
0 1 ? 3 puse de Budnick şi Kuck (1971). Carac- 
Fig. 3.25 Schemă de memorare asime- o memorie cu un număr prim de blocuri 
matrice 4x4. ge 
de o adresă de start și distanța de salt. 
numărului de blocuri de memorie, care este un număr prim. 
memoriei vom alege un număr primiM, astfel încit M> N. Adresa, fiecărui 


astfel de schemă pentru o matrice 4x 4. Liniile și coloanele pot fi accesate 

fără conflict, totuși diagonalele rămîn în conflict. Budnick și Kuck (1971), 

prin considerarea unui număr prim de 

i blocuri de memorie sau, alternativ a unui 

Ai | An? | Aa | A, număr care nu este putere a lui 2. Mai 

recent, Deb (1980) a prezentat o schemă 

A r A A> pentru accesul la toate diagonalele circu- 

21 | 22| 23 |'2% | lare (Jesshope 1980 b). l 
A A A Aa, moria sistemului nenorocos BSP (vezi 
1.1 12 | 513 | Arg : : 

$ 3.4.3) pe baza schemelor asimetrice pro- 

Bloc memorie teristica principală a acestei organizări este 

că care permite accesul fără conilict de memorie, care permite accesul fără con- 

t inii și i A . tu Si 

atit la liniile, cit și Ja coloanele unei ficte Ja toate sub-masivele liniare definite 

“Excepţia intervine cînd distanţa de salt şi numărul blocurilor de memorie: 

au un factor comun. Se întîmplă cînd distanța de salt este un multiplu al 

Vom ilustra acest mod de organizare cu masivul nostru 4x4, ca un 

exemplu. În loc de a avea 4 blocuri de memorie pentru masivul cu 4 proce- 

soare, vom alege numărul prim care urmează, în acest caz, 5. În general, 

pentru a obţine paralelismul N de lapun anumit mod de organizare a; 

element din masiv este dată de ecuaţia (3.34), unde a este adresa liniară. 
corespunzătoare a elementului. 


Blocul de memorie : u= ale 
Adresa în bloc: i = la/N] (3.34) 


unde [f] furnizează valoarea întreagă a lui f, iar |f|,, valoarea lui £ mo- 
dulo g. Tab. 3.3 prezintă adresele pentru exemplul nostru 4x4, iar fig. 
3.26 ilustrează acest mod de memorare. Probabil este un exemplu prost, 
deoarece accesul la elementele diagonalei principale cauzează conflict.. . 
Pentru o matrice N x N diagonala, principală are o distanţă de salt N+-1,5 
în exemplul nostru, egal cu numărul blocurilor de memorie. Totuşi cele- 
lalte sub-masive liniare pot fi accesate fără conflict ; liniile, coloanele și. 
diagonala secundară. Ca exemplu să considerăm accesul la linia 2. Adresa, 
de start este 1, iar distanţa de salt 4, care defineşte adresa liniară a fiecă— 
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rui element din linie. Astfel: 


a = (1, 5, 9, 13) 
şi folosind (3.34) 

p = (L, 0, 4, 3) 
şi corespunzător 


i = (0, 1, 2, 3) 


Tabelul 3.3. Măsurarea unui masiv 4x4 


Elementul din A | Adresa liniară 
| 


Blocul de memorie | Adresa în bloc 


1,1 0 0 0 
2,1 1 1 0 
3,1 2 2 0 
4,1 3 3 0 
1,2 4 4 1 
2,2 5 | 0 1 
3,2 6 1 1 
4,2 7 2 1 
1,3 8 3 2 
2,3 9 4 2 
3,3 10 0 2 
4,3 11 1 2 


La accesul unui sub-masiv, p defineşte un vector de mapare sau per- 
mutare ce poate fi folosit pentru programarea rețelei de comutare, astfel 
că blocurile de memorie să fie conectate corect la procesoare. Vectorul de 
indexare i este folosit pentru modificarea adresei de bază. Trebuie notat 
că elementele lui i corespund blocurilor de memorie date în p şi trebuie deci 
permutate conform lui p pentru obținerea indexului în blocul de memorie. 
O privire la fig. 3.26 va confirma că vectorii anteriori selectează într-adevăr 
linia a 2-a a matricei. 


3.4. O perspeetivă istorică 


3.4.1. O istorie umalgamată 


Paralelismul poate fi aplicat fie biţilor unui cuvint, fie unui număr 
de cuvinte, sau atit biţilor, cît şi cuvintelor. Acest compromis a fost deja 
discutat în $ 3.2.3. Alegerea, soluţiei paralel pe bit/serial pe cuvînt, de către 
Von Neumann şi alţii în anii 1950 a stabilit o direcţie în ce priveste 
arhitecturile de calculatoare care mai recent a început să fie contestată în 
mod serios. Alegerea a reflectat corect restricţiile tehnologice și de imple- 
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mentare din momentul respectiv, cînd circuitele logice erau foarte rapide 
şi costisitoare, iar memoriile erau relativ lente şi necostisitoare. Aceste 
restricţii au determinat proiectarea structurii procesor-memorie, orientată 
pe cuvînt (aşa-numita arhitectură Von Neumann), care menținea părţile 
costisitoare ocupate (de ex. procesoarele construite cu tuburi). 

La calculatoarele moderne, atit 
memoria, cit şi circuitele logice sint 
ieftine, iar componenta critică a de- 
venit firul de interconectare. În mod 
obişnuit multe sute de mii de tran- 
zistori intră în structura unui circuit 
VLSI, iar în viitorul apropiat numă- 
rul lor va crește probabil la milioane. 
În mod sigur s-au produs deja circuite 
cu mai mult de un milion de tran- 
zistoare (vezi cap. 6). Deoarece me- 
moria şi circuitele logice pot fi con- 
struite acum cu aceeaşi tehnologie, 

Bloc memorie vitezele şi costurile sint comparabile ; 

Fig. 3.26 Schemă de memorare care foloseşte într-adevăr, este dezirabil de a inte- 
un număr prim de blocuri de memorie (cinci), gra atît memoria cît şi circuitele lo- 
ma e m e e ame A tonti gice pe același circuit. Aceşti factori 
giei mate Izé i disnenlale aa tehnologici mar solicită arhitecturi en 
nu sint separate prin cinci poziții. o echilibrare între partea de memorie 

şi cea de prelucrare şi, mai mult, să fie 

integrate mult mai apropiat componentele care în arhitectura Von Neu- 
mann sint separate. ; l 

Masivul de procesoare şi într-o oarecare măsură. sistemul multiproce- 
sor reprezintă o cale alternativă de evoluţie față de procesorul Von Neu- 
mann convențional, prin aceea că mai multe procesoare cooperează la 
o singură problemă, fiecare accesînd date din memoria proprie. Trebuie 
observat că un comutator care realizează un set complet de permutări 
între procesoare și memorii determină ca noţiunea de proprietate să aibă 
o natură temporară! Probabil calculatorul SIMD cu conexiuni după două 
direcţii ortogonale a fost primul rival cu această arhitectură, cum se va 
vedea mai departe. Totuşi, nici unul din aceste sisteme nu a fost un 
succes comercial. Unele au avut succes tehnic, iar unele au fost comerciali- 
zate, dar preferința utilizatorului pentru calculatoare care să execute 
FORTRAN serial standard a dominat piața supercalculatoarelor. Prin 
creşterea interesului pentru paralelism, dezvoltarea limbajelor paralele 
(vezi cap. 4) şi creşterea raportului performanțe/cost care poate fi: obţi- 
nut cu circuitele VLSI multiplicate, masivele de procesare şi sistemele 
multiprocesor încep să se răspindească,. i 


Adresa 


(i) Un start timpuriu ; ; ; 

Ideea unor calculatoare conectate, care ar putea fi folosite la rezolva- 
rea unor probleme spaţiale, a fost concepută în 1958 în lucrarea . lui 
Unger (1958). La această mașină, un masiv bidimensional de module logice 
conectate cu vecini era comandat de un singur controler master. Fiecare 
modul (azi s-ar. chema element de prelucrare sau PE) constă dintr-un 
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acumulator, un procesor boolean și 6 biţi RAM. Data intră în modul fie 
prin conectarea modulelor sub forma unui registru de deplasare, fie direct 
de ia controlerul master. Controlerul funcționa, ca un secvenţiator Von 
Neumann convențional şi putea, cu o excepţie, să facă un salt funcţie: de 
suma logică a datelor din toate modulele masivului (acumulatoarele furni- 
zau aceste date). Exceptia reprezenta una din cele mai importante inovaţii 
ale lui Unger, ce poate fi îniilnită azi la aproape toate masivele de proce- 
Soare. 

Această posibilitate reprezenta singuiul salt dependent de date, posi- 
bil în proiectul lui Unger, care s-ar traduce cu expresiile paralele : 


FOR ALL PROCESSORS 
IF ANY (ACCUMULATOR=TRUE) 
THEN ACTION 1 
ELSE ACTION 2 


Desigur cu o modificare a semnificației logice, s-ar putea obține și 
un salt pentru condiția „toate acumulatoarele adevărate”. Această arhi- 
tectură nu a fost implementată niciodată, datorită „cifrelor alarmante” 
estimate de Unger pentru numärul de porți necesare. Cifrele actuale sint 
de aproximativ zeci de mii de porți logice, ce pot fi implementate cu uşu- 
rință azi într-un singur circuit. 


(ii) SOLOMON 

Proiectul calculatorului SOLOMON (Slotnick et al 1962, Gregory 
şi Me. Reynolds 1963) constă dintr-un masiv de 32 x32 PE şi deşi nu a 
tost construit niciodată, a fost precursorul seriei de proiecte ILLIAC 
(University of. Illinois Advanced Computer), care a culminat cu ILLIAC 
IV și Burroughs BSP (vezi $1.1.4. şi 3.4.3.). SOLOMON a avut o influenţă 
majoră și asupra sistemului ICL DAP (vezi $ 3.4.2), fiind important pentru 
introducerea, unui alt concept de control al'masivelor. de procesoare SIMD, 
acela al controlului de mod (sau activitate, cum s-ar chema azi). Modul 
unui PE era un indicator pe un bit, care putea fi setat funcţie de 
valoarea unor date locale și folosit apoi pentru determinarea acţiunii ins- 
uucţiunilor următoare. În particular, putea fi folosit la inhibarea me- 
morării rezultatelor, deci pentru asigurarea execuției unei operaţii condițio- 
nate local. 

Controlul modului sau. al activității este echivalent cu următoarele 
instrucțiuni : 

FOR ANY PROCESSOR 


IF MODE 
l | TREN ACTION 1 
Construcţia paralelă IF-THEN poate fi scrisă uneori ca 
WHERE MODE 


THEN ACTION 1 
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(iii) ILLIAC IV 

ILLIAC IV a fost cu siguranţă primul masiv de procesoare construit 
cu succes tehnic, de care își aminteşte cu plăcere cel puţin unul din autori, 
deoarece: a fost folosit la începutul unui program de cercetări privind 
folosirea calculatoarelor paralele la rezolvarea unor probleme ştiinţifice şi 
inginereşti (Jesshope și Craigie 1980). Pentru mulţi cercetători sistemul 
ILLIAC IV instalat la Ames de NASA în 1972, a oferit un serviciu com- 
plet via ARPANET, începînd cu 1975. 

ILLIAC IV era constituit din 64 procesoare complexe aranjate după 
două direcţii ortogonale. Procesoarele lucrau pe 64 de biți deşi puteau fi 
veconfigurate sub forma unui masiv cu dimensiunea de 256 pentru a 
lucra cu date pe 8 biţi. Proiectul iniţial constă din 4 sferturi, fiecare cu 
dimensiunea masivului construit acum iar întregul, ce folosea 4 controlere, 
ar fi fost capabil să realizeze mai mult de 1 Gflop/s (10). Una din carac- 
teristicile originale ale lui ILLIAC IV, posibil de realizat numai datorită 
complexității procesorului, a fost posibilitatea execuţiei locale a operaţiilor 
cu indecşi. În fiecare procesor putea fi folosit un registru X pentru modifi- 
carea adresei emise de controlerul central. Astfel, fiecare procesor poate 
accesa o locaţie diferită în memoria propriu-zisă. 

Această posibilitate poate fi exprimată : 


FOR ALL PROCESSORS {LABELLED I=[0 FOR 64) 
A[I]: =MEMORY (X(1]] 


Aşa cum s-a arătat în $3.3.8, această posibilitate este foarte puternică, în 
special cînd se accesează masive după mai multe dimensiuni. 

Deşi ILLIAC 1V a fost livrat cu întirziere, a depășit bugetul, nu a 
atins niciodată performanţele specificate şi a fost foarte puţin fiabil, a 
asigurat comunităţii cercetătorilor din domeniul masivelor paralele un sti- 
mul imens. Este suficient să trecem în revistă limbajele paralele dezvol- 
tate pentru ILLIAC. De exemplu, TRANQUIL (Abel et al 1969), ase- 
mănător FORTR AN-ului si ACTUS (Perott 1979) asemănător PASCAL-u- 
lui, au fost concepute iniţial pentru ILLIAC IV. 


(iv) Adevăratul început 

Anii '70 au înregistrat dezvoltarea multor alte proiecte de masive de 
procesoare. În Marea Britanie s-au fabricat CLIP, la University College 
din Londra, special proiectat pentru prelucrarea imaginilor (Fountain şi 
Goeteherian 1980) şi ICL DAP, descris mai pe larg în $3.4.2.. Primul sis- 
tem ICL DAP a fost livrat în 1979 la Queen Mary College din Londra 
(QMC) şi deși a fost bine primit de comunităţile de cercetători, nu a re- 
prezentat un succes comercial pentru ICL. Se pare că succesorul lui, un 
DAP LSI va avea o soartă similară ; oricum, în momentul redactării acestei 
lucrări, ICL a transferat dezvoltarea sistemelor DAP unei firme nou create 
denumite Active Memory Technology Ltd (AMT Ltd). Urmează să ve- 
dem dacă această companie nouă va îi capabilă să concureze cu numărul 
în creştere de produse cu transputetre. 

Din cele 6 sisteme DAP construite, unul a mers la QMO, două la 
Edinburgh University, unul la National Phisical Laboratory din Tedding- 
ton, iar ultimul a fost folosit de către companie pentru proiectarea circuite- 
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lor integrate (CAD). În Statele Unite s-au construit, în aceeaşi perioadă, 
alte masive de procesoare STARAN şi PEPE. STARAN este un procesor 
asociativ construit de Goodyear Aerospace, iar PEPE a fost proiectat 
pentru combaterea rachetelor balistice. Ar 

Cele mai multe din sistemele amintite mai sus au avut succesori, 
dintre care unii vor fi descriși. în secțiuni ulterioare ale acestui capitol. 
De exemplu, sistemul BSP, construit de Burroughs, a rezultat din ex- 
perienta firmei de la contractul pentru realizarea lui ILLIAC IV. Deşi 
s-a construit o singură maşină BSP, ea este descrisă în $3.4.3, deoarece 
a reprezentat la acea dată cel mai reprezentativ masiv de procesoare. Ea 
a avut de concurat cu procesoarele vectoriale, printre care şi cu CRAY-1. 
De aceea ar fi trebuit să fie capabilă să depăşească performanţa maximă 
a lui CRAY-1 ; cînd, de fapt, nu realiza decit o fracţie din aceasta. Faptul 
că, spre deosebire de CRAY, BSP a fost proiectat să realizeze un procent 
mare din performanța maximă pentru o gamă largă de probleme progra- 
mate în FORTRAN, nu a impresionat nici utilizatorii, nici reprezen- 
tanţii lor. Probabil de aici se poate extrage o morală. 


3.4.2. ICL DAP 


Proiectarea. sistemului DAP (distributed array processor) pilot a 
început în 1974, urmînd proiectul SOLOMON (Gregory şi McReynolds 
1963), care consta dintr-un masiv bi-dimensional de 1024 procesoare pe 
1 bit. Totuși, DAP a introdus două contribuții noi la formula SOLOMON. 
Prima a fost o caracteristică hardware care consta în secționarea masivului 
după două direcții ortogonale. Unitatea de control master (MCU) avea 
un număr de registre pentru fiecare direcţie a masivului DAP. Se folo- 
seau două magistrale de date ortogonale, care străbăteau liniile şi coloanele 
de elemente procesoare (PE). Aceste magistrale aveau cîte 1 bit pentru 
fiecare bit al registrului MCU, care parcurgea fie olinie, fie o coloană 
din masiv. Astfel PE,, va avea o magistrală pe 1 bit direct la biții i și j 
ai registrului MCU. Aceste magistrale colectează şi emit date unor secţiuni 
(felii-slices) din masivul DAP, asigurind astfel flexibilitate în manipularea 
datelor. 

A doua contribuţie se referă la modul în care DAP este integrat 
intr-un sistem complet. DAP este proiectat să emuleze un modil de me- 
morie al unui calculator de uz general ICL și să prelucreze autonom date 
intr-o manieră paralelă. Acest concept i-a dat și numele, deoarece puterea 
de calcul este distribuită în memoria unui calculator convenţional. 

Sistemul pilot a fost terminat în mai puţin de doi ani de la începere, 
ca un masiv de.32 x 32 PE cu 1Kb de memorie fiecare. După 6 ani, în 
1980, s-au livrat primele trei bucăţi beneficiarilor. Acestea erau masive 
de 4096 PE,, organizate în aceeaşi geometrie, fiecare procesor cu 4 Kb 
de memorie. Se obţine un total de 2 MB (ulterior crescută la 8 MB), ataşat 
la una din maşinile cele mai performante din gama ICL 2900. Între pilot 
și maşinile comerciale există unele diferenţe. Aici, vom descrie prima 
versiune produsă. Cititorul interesat: poate afla detalii despre mașina pilot 
in lucrarea lui Reddaway (1973), iar aspecte privind evaluarea ei pentru 
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În sfirşit, magistrala coloană, asigură calea pentru extragerea instruc- 
țiunilor DAP de eătre MCU. Instrucţiunile DAP sint memorate cite două; 
pe o linie, iar o linie este citită din memorie într-o perioadă, de ceas. În 
anumite condiţii instrucţiunile pot fi meniorate de buferul pentru ins- 
trucţiuni, pentru execuţie repetată. Mai multe detalii se vor da ulterior. 
Se mai poate vedea în fig. 3.29 că magistrala linie conectează masivul 
DAP la registrele MCU după direcţia ortogonală cu prima. Această ma- 
gistrală are 1 bit pentru fiecare linie de procesoare din masiv și este folosită 
în exclusivitate pentru transmiterea datelor la sau de la registrele MCU. 
Fig. 3.30 prezintă diversele componente şi căi de date care constituie un 
singur element procesor. Masivul formează o grilă bi-dimensională, fiecare 
procesor aflindu-se într-un nod şi avind 4 vecini. Conexiunile de la marginiea 
masivului sînt definite de instrucţiunea în curs de execuţie. Geometria 
unei instrucţiuni este fie planară, fie ciclică în linii şi coloane. Geometria 
planară defineşte o intrare zero la margini, în timp ce geometria ciclică 
asigură conexiuni periodice în linii sau coloane ale masivului, Geometria 

liniilor şi coloanelor poate fi stabilită independent. 
Într-un procesor există 


trei registre pe 1 bit, două 
multiplexoare şi un sumator 
complet pe 1 bit. Registrul 


| 

i | Memorie A asigură controlul progra- 
stie biţi mat asupra acţiunii elemen- 
tului procesor, deoarece anu- 
mite instrucțiuni de memo- 
ata MEU rare sînt executabile dacă, 
magistrale linie/coloană acest registru de activitate 
este setat. Registrul A are 
a> intrarea comandată de porți 
La vecini şi care permit realizarea de 
funcții „şi” între registru şi 
intrare, realizind astfel rapid 
măști de control. Celelalte 
registre sint acumulatorul (Q) 
Control. și registrul de memorare a 

se tie transportului (C). 
Sumatorul adună Q,C 
şi data de la intrarea ele- 
mentului procesor, producind 
suma gi transportul, care 
pot fi memorate în registrul 
Q, respectiv C. O excepţie 


10 
Fig. 3.30 O diagramă simplificată a elementului pro-  esţe reprezentată, de situaţia 


ses Alu JIA cînd se execută o adunare 


cu un operand aflat în memorie. Această familie de instrucţiuni consumă 
1,5 perioade, în cursul cărora se citește operandul din memorie și se scrie 
bitul sumă produs în aceeași locaţie (cum se va vedea în continuare, cele 
mai multe instrucțiuni se execută într-o perioadă de ceas), salvind astfel 
o jumătate de perioadă față de o adunare cu acumulator, urmată de 
transferul rezultatului în memorie. a 
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Sînt incluse și elemente pentru calculul parităţii (nu apar în figuri). 
Acestea verifică atât funcţionarea memoriei, cit şi modul de execuţie 
a funcţiilor logice (Hunt 1978). Cind lucrează ca memorie a calculatorului 
2900, se folosește codul Hamming complet , care permite corecţia erorilor 
unice şi detecția erorilor duble pentru fiecare dată citită de 64 biți. 


DAP execută instrucţiunile în două faze, în ciclii de extragere și 
execuţie. Fiecare durează o perioadă de 200 ns. Cind o instrucţiune inter- 
vine după şi în interiorul unei instrucțiuni hardware specială, de tipul 
DO cu ciclare, extragerea instrucţiunilor se execută o singură dată pentru 
cele N iterații ale buclei. Această instrucţiune are două emipuri de date, 
un cimp care indică lungimea buclei şi un cimp pentru numărul de exe- 
cuţie al buclei. Lungimea maximă este de 60 instrucțiuni, iar numărul 
maxim de execuție este de 254. În interiorul ùnei bucle, instrucțiunile 
pot avea adresele incrementate sau decrementate cu 1 la fiecare pas. 
Bucla DO este esențială peatru construirea programelor ce prelucrează 
cuvinte. Instrucţiunile se execută cu rata de una la fiecare-1,5 perioade 
de ceas, cînd extragerea are loc la fiecare execuţie (două i 
sint extrase într-un “cielu). 

Cele mai multe instrucţiuni DAP au formatul din fig. 3.31 (a). Codul 
operației şi cimpul de inversare specifică efectiv tipul instrucţiunii. Bitul 
de inversare creează perechi de instrucțiuni identice, cu excepția faptului 
că una din intrări este inversată. De exemplu, QA şi QAN sint perechea 
care încarcă registrul Q cu ceea ce se află în registrul A. QAN inversează 
intrarea. Multe instrucțiuni DAP au astfel de perechi complementare. 
Celelalte două cîmpuri de 1 bit menționează dacă adresa este incrementată 
sau decrementată, în cadrul unei bucle DO. 

Cele două cimpuri cu 3 biţi specifică registrele MCU. Primul este setat 
dacă este necesar un registru pentru date, iar al doilea dacă este necesară 
modificarea instrucţiunii. Cele două cimpuri rămase reprezintă fie o adresă 
de memorie sau un deplasament efectiv, în cadrul unei instrucţiuni de 
deplasare. Aceste cimpuri pot fi modificate de registrul MCU definit 
de cîmpul modificator. 

O instrucţiune care referă memoria conține două cimpuri de adresă 
pe 7 biţi. Unul este numărul unei linii sau coloane, iar al doilea un depla- 
sament pe 7 biţi. Aceste adrese se adună la conţinutul registrului modificat 
(tig. 3.31. (b)) pentru a forma adresa absolută. Este permis un transport 
la calculul adresei numai dacă sînt referite linii. Pentru instrucţiunile 
cate adresează coloane, numărul coloanei este tranchiat la 6 biţi, pentru a 
se obține o valoare modulo 64. 

În cadrul instrucţiunilor care deplasează datele prin masiv, cele două 
cimpuri de adresă menționează o adresă relativă în masiv. Un cimp defi- 
neşte geometria şi direcţia deplasării, iar celălalt este folosit ca numărător 
pentru deplasare. Ambele put fi modificate cu ceea ce se află într-un 
registru MCU cu formatul din fig. 3.31 (c). Valorile posibile ale direcţiei 
sint, identice, N, S, E, şi V. Geometria are patru variante, după linii gi 
coloane, programate independent în plan sau ciclic. 

Indiferent de modul de adresare, dacă cîmpul modificator este zero, 


nu se produce nici o modificare. 
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Nu încercăm să prezentăm aici toate instrucţiunile, cititorul interesat; 
avind posibilitatea, să consulte manualul limbajului de asamblare DAP 
APAL (ICL 1979 c). 


[ij Emi re = Rea az sti 
mi Operation | Mc Moabe aa er f „| Remicoluan 
j } Cit register] &, resister] | geometry shift count |, 
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U 
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T Ti 

// i 

BAA // Unused Aderess Rowfcotumn 
| LLA, Z/ | number 


Fig. 3.31. Formatele instrucţiunii și a modificatorului : (a) instrucţiune ; (b) moditicatorul 
i adresei; (¢) modificatorul deplasării. 


Vom încerca, totuși să sistematizăm instrucțiunile în grupe, în tab. 3.4, 
şi să indicăm căile de date conceptuale create de aceste instrucțiuni, în 
fig. 3.32. Liniile întrerupte indică controlul exercitat de registrul de acti- 
vitate. i 


Tabelul 3.4 Sumar de instrucțiuni DAP. 


Registru-registru ý | Registru-memorie 
adunare pe 1 bit |n aura de un bit Ja locaţie 
Adunare completă sau pe jumătate Adunare completă sau pe jumătate 
adună la Q ladună la conţinutul locației 
transport la C transport la C 


Adunare vectorială 
adunare serială 


Q- Q+G i 

Transmisie |Încărcare/meinorare 

registru-la-registru Încărcare şi memorare a registrelor Q şi A (linit, 
in interiorul PE, inclusiv instrucţiuni de 

deplasare coloane sau întreg planul de memorie MCU/ 
MCU masiv memorie i 

încarcă registrele MCU, emisie sau scriere 

selectivă lajde la Qşi A Încarcă registrele MCU, emisie sau scriere se- 


lectivă la/de la memorie . . ~- 

numai MCU i 

Control operaţii logice sau aritmelice cu regis- 
` jtrele MCU 


Modul normal de funcționare a calculatorului DAP. este serial pe 
bit, în paralel pe 4096 cuvinte. Microcodul pentru adresare va folosi posi- 
bilitatea hardware de execuţie a buclelor DO, prin accesul consecutiv la 
biții de date, memoraţi continuu în memorie. 
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Alternativ, elementele de calcul DAP pot fi configurate pentru a 
forma un sumator paralel sau cu transport anticipat (fig. 3.3) (PE pot îi 
legate în orice direcţie). Astfel pot fi prelucrate în paralel 64 cuvinte a 
64 biţi. Transportul este propagat cu cel puțin 4 poziţii binare într-o 
perioadă de ceas. 


l 


PONESE SE EE 


' Control! 
ı &ctivi- 


| La vecin 
) 


Fig. 3.32. Căile de date conceptuale într-un element de 
procesoare DAP. 
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eiament prorasor 4 
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Fig. 3.33 O diagramă a memoriei și masi- 

vuülui de procesoare DAP, care prezintă cele 

două moduri posibile de memorare; modul 

vectorial, cind cuvintul este memorat ori- 

zontal, într-o linie de PE ; modul matricial, 

cînd cuvintul este memorat vertical într-un 
i singur PE. 


Hodu 
Fod ial 


Modul 
vectorial 


Masiv 64xóhde PE 
Fig. 3.33 prezintă structurile de date pentru aceste moduri de lucru, 


modul matricial şi modul vectorial. Prelucrarea cuvintelor în modul vec- 
torial se execută întotdeauna cu un cuvînt pe linie, chiar dacă este o risipă 
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de elemente procesoare pentiu numerele mici (mai mici ca 64 la calcula- 
torul DAP). RPA, descris în $ 3.5.4., este proiectat să folosească acestei 
elemente neutilizate, asigurind o arhitectură mai flexibilă. Trebuie să 
remarcăm că atunci cind datele nu corespund structurii calculatorului 
DAP, înaintea execuţiei calculelor, datele trebuie reorganizate, ceea ce 
înseamnă o pierdere și de spatiu de memorie și de putere de calcul. 

La nivelul sistemului DAP, care este siring integrat sistemului 
gazdă (ICL 2900), codul DAP îi apare utilizatorului ca o parte a unui 
limbaj mixt, cu subrutine DAP FORTRAN, apelate din programele 
FORTRAN executate pe 2900. Ca un exemplu, să considerăm aplicaţia 
tipică din fig. 3.34. 

Se poate vedea că gazda asigură serviciile sistem, inclusiv compilarea, 
introducerea, datelor și analiza. Un singur punct de intrare din programul 
FORTRAN gazdă va transfera controlul subrutinelor DAP între DAP gi 
gazdă, comunicaţia se realizează prin blocuri comune care, cind sint acce- 
sate de DAP, vor fi încărcate în memoria 2900 corespunzătoare spațiului 
de adresare DAP, de unde sînt accesibile ambelor sisteme. i 


Coimpileaza FORTRAN 
și DAP FORTRAN 
și execută 
job-uri 


Crează 
fișiere 
intrare 


a aer! 
Ş. * [ ProgremFORTRAN] - * $ 
F mai 4 master PS 
0 a N j 
R W pon N j 
T = Anal 
R lesire FORTRAN 
A zi rutine 
N ratice 
D 
A 
P 
F 
0 
R 
T 
R: 
R 
N 


Fig. 3.34 Circulaţia datelor şi a comenzilor în cadrul prugra- 
melor DAP. 


Limbajul DAP FORTRAN, un limbaj paralel FORTRAN, este pre- 
zentat în $ 4.4.2. Limbajul de asamblare DAP, APAL poate fi interfaţat 
atit cu FORTRAN, cit şi DAP FORTRAN. Cînd se execută operaţii în 
virgulă mobilă sau rutine sistem standard (înalt optimizate), utilizarea 
APAL nu produce ciștiguri substanţiale. Totuşi, dacă pot fi găsiti algo- 
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ritmi care să exploateze natura liniară a elementelor procesoare, se pot 
obţine, prin codificarea în limbaj de asamblare, creşteri de performanţe 
de mai multe ordine de mărime (Eastwoad şi Jesshope 1977). 

Cum elementele procesoare operează serial, toate operaţiile aritmetice 
trebuie definite prin program. Pentru modul de prelucrare al masivului 
DAP, operaţiile aritmetice se vor executa ca secvențe de operaţii pe bit. 
Aceasta înseamnă că va fi o dependență puternică a performanţei de 
lungimea; cuvîntului. Pentru operaţiile cu întregi. proporţionalitatea este 
cu lungimea cuvîntului, în timp ce pentru adunare și înmulţire, cu pătratul 
lungimii cuvîntului. În cazul calculelor în virgulă mobilă, aceste propor- 
ţionalităţi sint într-un fel mascate de overhead-urile necesare pentru mani- 
pularea exponentului și a mantisei. Totuşi, în ambele cazuri, dependenţa 
de lungimea cuvîntului reprezintă aspectul pozitiv, dar şi negativ al per- 
formanţei sistemului DAP. Aspectul negativ constă în aceea că aplicaţiile 
care impun calcule de mare precizie se execută lent pe DAP ; în schimb, 
în cazul aplicaţiilor care folosesc cuvinte scurte, se pot executa mai multe 
sute de milioane de operaţii pe secundă. 

Pentru cele mai multe probleme, calculele în virgulă mobilă pe 32 de 
biți oferă o precizie suficientă, de aceea furnizăm în tab. 3.5 timpii de 
execuţie corespunzători. Aceștia sint luaţi din lucrarea lui Reddaway 
1979) şi se referă la rutinele sistem optimizate. Aceste valori pot fi folosite 
pentru evaluarea timpilor de execuţie ai programelor DAP FORTRAN, 
deoarece overheadurile de manipulare în câdrul limbajului de nivel înalt 
sint minime. Acest lucru se datorează vitezei mari cu care poate DAP să 
manipuleze datele, lucru ilustrat în tab. 3.5 de timpii de execuţie pentru 
atribuire. 


Tabelul 3.5, Rutine aritmetice DAP (reprezentare pe 32 biţi) X, Y și Z stat reale (4095 elemente) ; 
1X; 1Y şi 1Z sìnt întregi (4096 elemente) ; S este un scalar real. 


Operația Timp (us) Viteza de calcul(Mop/s) 

Z-—XK 17 241 . 
Ze X-S 40—130 32—102 
Ze KX? 125 33 
Z—X+Y 150 + 27 

Z - SORT) 170 24 
Z-Xx Y 250 16 

Z — LOG(X) 285 14 
Z— X/Y 330 12 

Z MAX (X, Y) 33 „194 

Z — MOD(Z) 1 4096 

IZ IX + IY 22 186 

S + SUM(X) 280 175 

S MAX (X) 48 85 


Unele din rutinele aritmetice au fost evaluate in cadrul unor programe 
DAP FORTRAN, pentru a se stabili cît de mare este overhead-ul pentru 
un limbaj de nivel inalt. Aceşti timpi sint prezentați în tab. 3.6 Se poate 
vedea că variază de la mai puțin de 10% pentru operații cu o matrice 
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(4096 elemente) la ceva peste 20% pentru buclele DO care execută 10 
operaţii matriciale (40960 elemente). 

Dacă se folosesc algoritmi care să lucreze la nivel de bit, se pot face 
economii substanțiale. Unele valori din tab. 3.5 ilustrează această 
observaţie, şi anume unde operaţiile furnizează viteze de execuţie 


Tabelul 3.6 Timpul de execuţie pentru DAP FORTRAN (reprezentare pe 32 biti). X, Y şi Z sint 
reale (4096 sau 40960 elemente) S este un scalar real. 


| 4096 elemente | 40960 elemente 
Operaţie f | Viteză . i 
Timp (us) (Mtlop/s) Timp(us) Viteză (atlopis) 

Ze X+Y 152 | 27 1848 22 
Ze-XxY 272 15 3048 13 

Ze X— S* 112—200 20—37 1368—2272 18—50 

Z X? 152 27 1816 23 

Z — SQRT(X) 192 21 2208 19* 

Z- X/Y 376 1i 4080 10 


* Se foloseşte S = 2 şi S = e pentru minim și valori tipice 


surprinzător de contradictorii. Probabil, cea mai uimitoare este suma ele- 
mentelor unei matrici cu 4096 elemente. Ne putem aştepta ca producerea 
rezultatului să consume aproximativ 12 adunări în virgulă mobilă (log, 
4096 = 12) ; de fapt se consumă mai puțin de 2! Alte exemple sînt extra- 
gerea radicalului şi logaritmului care, în mod normal, se execută, iterativ 
prin multe înmulţiri în ¥ irgulă mobilă. Unii din algoritmii folosiți pentru 
aceste funcții sint descrişi în lucrările lui Flanders et al (1977) şi Gostick 
(1975). 


3.4.3. Burroughs BSP 


Spre deosebire de DAP, BSP este un masiv de proccsoare complexe, 
capabile să execute operaţii in virgulă mobilă cu numere reprezentate pe 
48 de biţi. Folosește din plin experiența acumulată de Burroughs în 
calitatea de participant la proiectarea şi construirea lui ILLIAC IV. Deşi 
proiectul are multe caracteristici interesante, a suferit din cauza unor 
reorganizări interne ale firmei Burroughs, nefiind niciodată lansat în pro- 
ducţie. Probabil aceasta a fost o decizie bună, deoarece maşina nu concu- 
rează performanţele calculatorului CRAY-1. De fapt nu concurează nici 
predecesorul, ILLIAC IV, cu viteză maximă de 50 Mflop/s în comparație 
cu 80—100 posibil la ILLIAC IV. În ciuda acestei valori dezamăgitoare, 
proiectul a înlăturat un număr de deficienţe majore ale predecesorilor săi 
şi prezintă un interes suficient pentru a-l include în lucrarea prezentă. 

Una din problemele importante atacate de Burroughs a fost cea a 
menţinerii unei baze de date mari, care să ducă la folosirea continuă a 
masivului de procesoare. Aceasta a fost o limitare serioasă la ILLIAC IV 
(Feierbach şi Stevenson 1979 a) care posedă numai 1283 Kw memorie RAM 
şi un spaţiu mare: de memorare pe discuri. În contrast, BSP are memorie 
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RAM dela 1 la 8 Mw, plus o memorie secundară electronică rapidă. BSP 
are. organizată memoria astfel încît multe submulțimi regulate pot fi 
accesate în paralel, fără conflict. 

Alte învățăminte căpătate de Burroughs de la experienţa cu ILLIAO 
IV se referă la organizarea procesorului de control, un alt punct slab la 
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Fig. 3.35 Legătura dintre BSP şi calculatorul gazdă B7800. 


ILLIAC IV. În timp ce ILLIAC IV avea o memorie tampon mică și numai 
posibilități de prelucrare limitate, BSP asigură procesorului de control 
256 Kw și un procesor scalar mai complex. Această memorie este folosită 
pentru programe şi date. 

Detaliile privind sistemul BSP provin de la prototipul construit şi 
testat în 1980 (Burroughs 1977 a-d, Augustin 1979). Fig. 3.35 prezintă con- 
figuraţia sistemului BSP. 

, Interfața dintre sistemul manager şi BSP asigură două căi de date, 
una, lentă şi una rapidă. Calea lentă (500 RB/s) interfaţează procesorul de 
T/E direct cu unitatea de control BSP, fiind folosită pentru trecerea mesa- 
jelor și a informaţiei de control între cele două sisteme. A doua cale (1/1: Mw/ 
5) interfaţează procesorul de IJE cu contiolerul memoriei seca fiind 
folosită pentru transmiterea programului şi datelor pentru execuție pe 
BSP. Memoria secundară reprezintă o interfață bufer între sistemele front- 
end și back-end, pentru comunicaţii cu o lărgime mare a benzii. 

Memoria secundară este una din cele trei componente importante 
ale calculatorului BSP. Celelalte două : procesorul de control şi masivul 
de procesoare apar în fig. 3.36 şi sint descrise în continuare, | 

Procesorul de control conține patru unităţi asincrone care asigură 
controlul masivului, planificarea lucrărilor, operaţii de I/E şi gestiunea 
fişierelor, detectarea erorilor și, în sfirșit, comunicarea comenzilor între 
sistemul gazdă și BSP. - 
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Procesorul de control are 256 Kw de memorie MOS cu un ciclu de 
160 ns. Această memorie păstra atit instrucțiunile scalare vectoriale, cît 
şi datele scalare, fiind conectată la memoria secundară. 
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Fig. 3.36 Procesorul de control BSP şi secțiunea masiv, cu compo- 
nentele majore şi căile de date 


Unitatea de prelucrare a scalarilor era un procesor convenţional, 
orientat registru, care folosea hardware identic cu cel intilnit la cele 16 
unităţi aritmetice (AU) din masiv. Totuşi, diferă prin aceea că avea un 
procesor propriu pentru instrucţiuni, care citea şi decodifica instrucţiuni 
memorate în memoria de control a procesorului. 

Procesorul de control avea 16 registre de 18 biţi şi lucra cu o perioadă 
a ceasului de 80 ns. Executa atit operații numerice cît şi ne-numerice, cele 
în virgulă mobilă la o viteză maximă de 1,5 Mflopjs. Una din sarcinile 
importante ale procesorului scalar este preprocesarea instrucțiunilor vecto- 
riale. Se includ aici optimizările, verificarea hazardelor vectoriale, ca şi 
inserarea diverselor cîmpuri de informaţii în formatul instrucţiunii vecto- 
riale. Pentru execuţia acestor operaţii se foloseau bufere vectoriale de 120 
biţi, cite unul pentru un descriptor de instrucţiune vectorială. Instrucţiunile 
gata de execuţie erau trecute unităţii de control a masivului care le intro- 
ducea într-o coadă de aşteptare, le decodifica şi transmitea microcodul de 
control secţiunii de masiv a calculatorului BSP. 

Trebuie să subliniem că procesorul de control avea o funcționare com- 
plet independentă de secţiunea masivului. Odată inițializată, coada cu 
instrucţiuni ar fi trebuit să alimenteze continuu secțiunea de calcul a 
masivului. Procesorul scalar prelucra independent instrucţiuni scalare şi 
pre-procesa instrucţiuni vectoriale. Această soluţie a fost folosită prima 
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dată la ILLIAC IV, unde posibilitatea suprapunerii funcţionării celor două. 
sectiuni trebuia programată cu multă atenţie. La BSP, procesorul scalar 
și unitatea de control a masivului asigura operaţiile necesare în momentul 
execuţiei. = 

Seeţiunea masivului conţinea patru unităţi care lucrau ciclic sub 
forma, unui pipeline cu 5 elemente. Operaţiile sau task-urile executate de 
acest pipeline sint : 

(a) citeşte operanzii din memoria paralelă ; 

(b) aliniază operanzii corespunzători unităţilor aritmetice ; 

(c) execută operația; 

(d) aliniază rezultatul cu blocurile de memorie; 

(e) memorează rezultatele în memoria paralelă. 

Aceste instrucţiuni se suprapun cu seturi succesive de 16 elemente luate din 
instrucțiunile vectoriale prelucrate de unitatea de control a masivului. 
Numărul perioadelor de ceas (160 ns) necesare pentru fiecare din aceste 
task-uri este variabil funcţie de numărul operanzilor și operaţiilor execu- 
tate. Suprapunerea în pipeline este controlată cu fragmente diferite de 
microcod denumite tipare (templates). Unităţile aritmetice erau de uz gene- 
ral și comandate cu o singură secvenţă de micro-instrucţiuni. Cuvintul 
era pe 100 biţi, asigurind accesul direct la funcţiile primitive ale AU care, 
în plus, față de operatorii în virgulă mobilă mai aveau și un set comprehen- 
giv de operatori de editare și manipulare a cîmpurilor. Aici sînt incluşi 
şi operatori speciali pentru conversia formatului FORTRAN. 

Adunarea şi înmulţirea în virgulă mobilă se execută în două perioade 
a 160 ns, de unde pentru un AU viteza de execuţie de 3 1/8 Milopjs. 
Masivul de 16 realizează în consecință, viteza maximă de 50 Milop/s. 
Atit împărţirea cit şi extragerea radicalului sînt implementate prin iterații 
Newton-Raphson şi memorii ROM, care furnizau prima aproximare. 

Cuvîntul pe 18 biți folosit constant de Burroughs, are 36 biţi pentru 
mantisă, ceea ce inseamnă o precizie de 10—11 cifre zecimale. Exponentul 
pe 11 biţi produce un domeniu de variaţie de 410*%7. Acumulaioarele și 
registrele cu lungime dublă permit implementarea hardware a operaţiilor 
în dublă precizie. 

Memoria paralelă a secţiunii đe masiv BSP conţinea 17 blocuri de 
memorie, cu perioada de 160 us. 17 este numărul prim care urmează lui 
16 (numărul de procesoare). Această organizare, împreună cu o rețea de 
interconectare completă asigură accesul fără conflict la toţi vectorii liniari 
dacă incrementul între adresele elementelor din memorie nu este multiplu 
de 17. Această tehnică de acces a fost descrisă în $3.3.8. 

La BSP s-au folosit reţele cu accesuri înca ucișate complete cu detecție 
şi corecție de eroare. Şi aceste comutatoare lucrează cu perioada de 160 ne. 

Instrucţiunile vectoriale prelucrate de unitatea de control a masivului 
constau din 1 la 4 operaţii (1 la 5 seturi de operanzi), producînd un sin- 
gur rezultat vectorial sau scalar. Utilizarea unei astfel de instrucţiuni de 
nivel înalt permitea o optimizare mai bună a utilizării hard-ului, nu numai 
la nivelul registrelor dar şi la maximizarea suprapunerii în pipeline. Se 
poate înţelege că s-a atins o echilibrare a tuturor elementelor unităţii 
pipeline pentru operații triadice, de exemplu : 


A=BopCopD 
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Aici, cele patru referinţe la memorie de 160 ns și cele 2 operații (+, — sau 
x) de 320 ns pot fi suprapuse total. Totuși cele 2 reţele de transfer, în in- 
trare şi ieșire, utilizează numai 3, respectiv 1 din cele 4 perioade. 

BSP a fost proiectat ca un procesor de limbaj de nivel înalt 
{FORTRAN ), care realizează optimizări hardware şi transformări ale codu- 
lui utilizator în momentul execuției. A fost necesară folosirea unui procesor 
de control comnlieat pentru a menține o încărcare aomen a rețelei 
pipeline : 

(a) extragerea operanzilor ; 


(b) alinierea operanzi; 
(c) execuția operație ; 
(d) alinierea rezultate ; 
(e) memorarea rezultate. 


Din punct de vedere al limbajului FORTRAN, optimizarea utilizării unită- 
ților aritmetice multiple s-ar realiza cu un set de bucle DO incuibărite. 
De fapt operaţiile vectoriale BSP folosesc una sau două bucle încuibărit e. 
Totuși multe bucle actualizează parametrii în momentul execuţiei, de aceea 
şi formatul descriptor pentru operaţiile vectoriale poate conţine unii para- 
metri actualizaţi în faza de execuţie. ` 

Aceste instrucțiuni mașină au forma unor operaţii vectoriale memorie- 
la-memorie cu operanzi maşină de lungime arbitrară (volum), cu una sau 
două dimensiuni. O singură instrucțiune conţine pînă la 4 operaţii diferite, 
și pînă la 5 operanzi diferiţi. De exemplu, codul FORTRAN : 


DO 10 I=?, N-1 
DO 10 J=2, N-1 
10 NEWB (I, J) = (B(I-14, I)+BU, J-1)+(B(1, J+1)+B(I+1, J))/4. 


se va compila într-o instrucțiune BSP de nivel înalt. Funcție de N, o 
variabilă ce se determină în cursul execuției, instrucțiunea va genera o 
secvență de semnale de control pentru fiecare set de 16 elemente. Aceste 
semnale comandă memoria, reţelele de aliniere și unităţile aritmetice. 
Mai mult, aceste semnale se activau in așa fel încît să optimizeze anpii- 
punerea în pipeline. 

În plus față de operaţiile monadice, diadice, tetradice, pentadice asi- 
gurate de repertoriul de instrucţiuni BSP, existau de asemenea un număr 
de instrucţiuni vectoriale speciale. Cele mai importante sînt trecute în 
tab. 3.7. 

În figura 3.37 se prezintă formatul instrucţiunilor BSP, inclusiv 
cîmpurile pentru lungimea buclelor, forma instrucţiunii și operanzii folo- 
siţi ; descriptorii pentru fiecare operand și rezultat. Opţional pot fi specifi- 
caţi și vectori booleeni pentru operanzi şi rezultate. Vom folosi exemplul 
din fig. 3.37 pentru a ilustra modul de execuţie al acestei instrucțiuni 
care realizează o înmulțire matricială. 

Primul lucru care trebuie notat este că instrucțiunile specifică 3 bucle 
DO încuibărite. Astfel, această instrucţiune de calcul va fi plasată în 
interiorul unei bucle în codul scalar care, cînd se va executa pe procesorul 
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Tabelul 3.7 Operaţiile vectoriale speciale de la BSP. 


Operații scalare vectoriale 
Reducere cu simplă precizie 
Reducere cu precizie dublă 
Secvența 

Comprimare 

Expandare 

Combinare 

Extragere aleatoare 
Memorare. aleatoare 
Produsul scalar 

Recurența (toate) 


A+ BopS 

S<AFA+ .-.Aa 

Ca mai sus dar în dubla precizie 
At A, + Aa +... + A 
A e B (sub control boolean) 
AB», 

A+ Bsau C( t f 
A-B(D 

AD-=—B 

S-A Bi +... + An "Ba 
Ar Ca, An e Ait Bi + Ci 


Ultimul termen din secvenţa de mai sus 


Recurenţa (ultimă) 
Memoria de controle» memoria paralelă 


Trasfer de daztă 


scalar va genera 32 copii ale instrucţiunii cu cîmpurile de start parametri- 
zate completate. Aceste cîmpuri vor fi create de procesorul scalar în timp 
ce instrucțiunea se află în buferul vectorial de 120 biţi. Odată asamblată, 
instrucțiunea este trecută unităţilor de control ale masivului pentru prelu- 
crări ulterioare şi execuţie. 


+ ALeKIXB(ka ji 


Lungimea | Lungime . 
interioară | exter war | 
Bi. 28 | 


! Indicatori Bincroni 


fungi si Al 
insfruchune 
vectorială 


triadic 


Sk Si Penig 
Skip ki pentru 
Start interior ext HA K=12 


Adresa, 
de bază 


Volum 


3 descriptori | 
operand | 


Descriptor 
rezultat 


Fig. 3.37 Formatul limbajului mașină de nivel înalt BSP și descriptorii 
vectoriali : (sus) cod FORTRAN; (jos) forma vectorială BSP. 


Primul etaj al unităţilor pipe de control asamblează secvența de des- 
criptori furnizaţi de unitatea de prelucrare scalafă într-un descriptor unic, 
global, al operaţiilor. De asemenea stabilește orice dependenţă între ins- 
trueţiunile vectoriale succesive. Cînd această etapă este încheiată, rezulta- 
tul este plasat într-o coadă de aşteptare denumită memoria, deseriptorilor 
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de tipare, unde se așteaptă execuţia. În această etapă descrierea este încă 
la nivelul programului. Acesta a fost translatat numai în operaţii cu mul- 
timi de 16 elemente numai în faza finală de prelucrare a instrucţiunii, de 
către unitatea de control a tiparelor (template control unit), care a selectat 
secvența de microinstrucțiuni corespunzătoare operaţiei, pe care o ciclează 
apoi încrementind și decrementînd adrese și numărătoare de bucle. 

Pentru orice formă de instrucţiune există un număr de secvențe de 
microinstrucţiuni alternative, păstrate în ROM. Aceste tipare și procesorul 
de control al tiparelor selectează tiparul optim pentru fiecare etapă de 
execuţie a instrucţiunii. Aceste semnale de control au fost denumite tipare 
deoarece detinesc zone din unitatea pipeline a masivului in timp, care tre- 
buie parcurs cît mai strins pentru a maximiza utilizarea unităţii pipeline. 

Fig. 3.38 prezintă 2 tipare ce pot fi folosite pentru execuţia ins- 
trucţiunii din exemplul nostru (fig. 3.37). Ele definesc numărul cielilor nece- 
sari pentru fiecare secțiune a unităţilor pipeline și modul de suprapunere. 
Deoarece unitatea forma o reţea inel şi s-a folosit: o singură memorie atit 
pentru extragerea cit și pentru memorare, trebuie să. se facă rezervări, 
lucru arătat de liniile întrerupte. Aceste zone nu trebuie să se suprapună. 
Al doilea tipar din fig. 3.38, are un spaţiu liber între extragerea lui A şi 
a lui B ; acesta este necesar tocmai pentru o rezervare de la execuţia unui 
tipar anterior. 
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[lock _Fehchistore) Route Op Route Ste 
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Fig. 3.38. Două tipare peniru calcularea ex- Fig. 3.39 O ilustrare a modului cum se pot su- 
presiei C=C+A+B la BSP. Se prezintă prapune tiparele. Operația care se execută este 
și perioadele de ceas necesare în unitatea o înumițire matricială (vezi de asemenea 
pipeline BSP. Extragerea şi memorarea se a fig. 3.37 şi 3.38). 

execută în aceeași memorie și nu pot fi supra- 

puse, de unde al doilea tipar care rezervă un 

ciclu de memorare pentru un tipar anterior. 


Reîntoreîndu-ne la exemplul nostru, putem vedea cum unitatea de 


control a tiparelor selectează tiparul adecvat și incrementează adresele. 
Acest lucru îl arată fig. 3.39. Presupunem că primul tipar este lantat în 
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execuție. Unitatea de control va selecta deci prima din cele două alterna- 
tive din fig. 3.38, deoarece aceasta minimizează numărul de perioade de 
cea: necesare. Pentru extragerea următorului set de 16 operanzi nu este 
nevoie de nici o rezervare, de aceea se foloseşte același tipar a doua oară. 
Observăm că aici unitatea aritmetică este resursa critică. Toate tiparele 
succesive sint de al doilea tip, care necesită rezervare pentru ciclul de 
memorare, Se poate vedea că după acest moment toate unităţile aritmetice 
şi de memorie sînt folosite. 

Fig. 3.39 mai prezintă o restricţie de proiectare la suprapunerea 
operaţiilor de I/E cu cele de acces la memorie, deşi toţi ciclii memorie şi 
aritmetici sint folosiţi, reţelele de transfer sint ambele utilizate. Deşi 
pentru fiecare ciclu de memorie se foloseşte o perioadă de ceas, operaţiile 
de transfer nu pot fi suprapuse cu cele de acces la memorie cu un singur 
comutator. Aceasta deoarece operaţia de transfer are loc în cazul extragerii 
după cea de acces la memorie, iar în cazul memorării înaintea acesteia, 
Astfel vor fi necesare ambele reţele de comutare, care întotdeauna vor fi 
exploatate parţial și nu la întreaga capacitate. În acest mod pot fi optimi- 
zați numai ciclii aritmetici şi de acces la memorie. 

Pentru performanța calculatorului BSP în cazul vectorilor scurţi 
este important ce se întimplă între instrucțiuni. Să presupunem că înmulţi- 
rea, matricii este urmată de buclă: 


DO 20 I=1,200 
20 D(I)=B()+F(I) 


Unitatea de control a masivului BSP va determina dacă există de- 
pendente secvențiale între instrucțiunile succesive şi dacă nu există posi- 
bilitatea unor hazarduri vectoriale va suprapune execuția instrucţiunilor. 
Acest lucru este ilustrat pentru exemplul nostru în fig. 3.40. Se poate 
vedea că atunci cînd instrucțiunea este complet operațională accesele la 
memorie sînt limitate, iar în cursul suprapunerii, folosind cele două tipare 
din fig. 3.41, s-au utilizat toţi ciclii de memorie. În mod similar dacă 
operaţia este dominată de calcule aritmetice, optimizarea va folosi toți 
cielii unităților aritmetice. 

Concepţia de ansamblu a calculatorului BSP a fost de a se asigura în 
mod continuu o performanţă înaltă, fără întreruperi datorită operaţiilor 
de I/E sau sistemului, Astfel, interpretarea cifrelor de performanţă fără, 
a ţine cont de această observaţie poate induce în eroare. Burroughs nu a 
urmărit atingerea unor performanţe foarte mari, care să nu poată fi men- 
tinute continuu ci să proiecteze un calculator care să realizeze permanent 
50—100% din performanța sa maximă şi aceasta chiar programat exclusiv 
în FORTRAN. 

Timpii elementari pentru unităţile aritmetice sînt furnizaţi în tab. 
3.3.8. Trebuie să remarcăm că toate overhead-urile asociate acestor operaţii 
(de exemplu, agcesul la memorie şi alinierea datelor) se suprapun în oare- 
care măsură. De aceea aceste cifre reprezintă performanţele ce pot fi atinse 
continuu. De exemplu, pentru +, — şi + BSP poate executa operaţiile 
triadice memorie-la-memorie cu viteza de 50 Mflop/s. Pentru operaţiile 
diadice cu accesuri limitate la memorie era posibilă o rată continuă de 
32 Mflop/s. 


7 
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Fig. 3.40 Modul cum pot fi suprapuse diverse Fig. 3.41 Tipare em operația diadică Ð = 
operații. Aici, operația triadică care continuă = EF la BSP. 
din fig. 3.39 se suprapune cu o operație diadică 

care ‘foloseşte tiparul din fig. 3.41. 


Tabelul 3.8 Operații la BSP. 


Viteza de Viteza 


Timpul execuţie de execuţie 
Operația pentru 16 pentru pentru 
rezultate (ns) diadă triadă 

(Mflop/s) (Milop/s) 

+ 320 33 | 50 

— 320 33 50 

— 320 33 50 

+ 1280 12,5 12,5 

5 2080 2,7 7,7 


Deşi overhead-urile sînt suprapuse într-un pipeline, operațiile vectori- 
zate nu consumă deloc sau foarte puțin timp de iniţializare. Motivul este 
că BSP era capabil să suprapună chiar și operaţii complet diferite. Fig. 
3.42 şi 3.43 ilustrează acest lucru prezentind timpii reali pentru operaţiile 
vectoriale de lungimi diferite. În fig. 3.42 unitatea pipeline a fost artificial 
încărcată înainte şi după o singură operație vectorială. Se poate vedea că 
se obține un n, de 150, datorită timpului de inițializare asociat cu rețeaua 
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Fig. 3.42 Măsurätori aleluin,/, şi Fig. 3.43 Măsurători ale lui n}; Și rœ la 
Tæ pentru BSP, cu o singură in- BSP, cu operații vectoriale succesive su- 
strucțiune vectorială și unitatea prapuse; n/2 = 25, Io = 48 Mflop/s. 
pipeline golită inainte şi după ope- (Date furnizate de Burroughs Corpo- 
rație; n,/2 = 150, roo=50 Milop/s- ration.) 
(Date puse la dispoziție de Bur- 

roughs Corporation.) 


pipeline în inel. Totuşi, în utilizarea curentă, operaţiile vectoriale care se 


succed sînt suprapuse folosind descriptori de tipare. Efectele sint; prezen- 
tate în fig. 3.44 unde se vede că n,p s-a redus la 25. 
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Fig. 3.44 Ciculaţia datelor şi a controlului intr-un program 
BSP tipic. 


3.4-4. Denelcor HEP 


Denelcor Heterogeneous Element Processor (HEP) a fost proiectat 
de Burton Smith (1978). Deși în 1985 proiectul a fost întrerupt datorită 
unor: probleme financiare, arhitectura (ca şi la BSP) este suficient de in- 
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teresantă pentru a asigura o tratare detailată în acest capitol. La nivelul 
vel mai general (fig. 3.45), HEP constă din 16 module de execuţie a proce- 
elor (PEM) conectate printr-o rețea de comutare a pachetelor cu pînă la 
128 module de memorie pentru date (DMM). Cele 16 PEM execută pro- 
rame separate, dar toate pot accesa date din oricare din cele 128 DMM 
care formează împreună o me- 
morie partajată de mare capa- 
citate. Fiecare DMM conține 
pină la un milion cuvinte pe 
64 biți cu un timp de acces de 
; #0ns. Un PEM accesează me- 
ia moria prin trimiterea unui pa- 
à chet „cerere ” pe 128 biți care 
ka | conţine adresa datei (de ex. 
i adresa DMM și adresa din inte- 
Fig. 3.45 O reprezentare bloc a sistemului De- Tiorul DMM) Aceasta traver- 
nelcor HEP, cu pină la 16 PEM conectate de o sează reţeaua cu mai multe 
reţea de comutare a pachetelor la pină la 126 DMM. etaje pînă la DMM corect, data 
solicitată este accesată și in- 
trodusă în pachet, care este returnat modulului PEM solicitant, tot prin 
reţea. Timpul de parcurgere al unui nod este de 50 ns, iar un interval de 
timp tipic care se scurge de la cererea datei pînă la introducerea ei în 
PEM este de 2,4 us. 

La acest nivel de descriere HEP poate fi considerat ca un sistem 
MIMD cu memorie comună, și cu reţea de comunicare cu mai multe etaje, 
conform descrierii din $ 1.2.6. 

În orice sistem MIMD, aspectele de proiectare cele mai importante 
se reieră la mecanismele de sincronizare şi protocoalelor asociate pentru 
accesul multiplu la memoria comună. La Denelcor HEP, ambele meca- 
nisme folosesc un indicator plin/gol asociat cu toate cuvintele din memorie. 
Acest dispozitiv permite implementarea protocolului handshake la fiecare 
cuvint de date din întregul sistem ; data nu poate fi citită dintr-o locaţie 
decit dacă acest bit semnifică, „plin”, iar scrierea nu poate avea loc decit 
dacă bitul semnifică „gol”. In mod normal, după o operaţie de citire bitul 
este făcut „gol” iar după o operaţie de scriere „plin”. Se poate vedea că 
acest mecanism este suficieni pentru implementarea. protocolului necesar 
pentru un canal Occam (vezi § 4.4.2). De aceea este suficient pentru im- 
plementarea. tuturor primitivelor de sincronizare şi protejare a datelor. 

Structura unui PEM este interesantă deoarece fiecare poate prelucra 
pină la 50 fluxuri de instrucţiuni, de la maximum 7 task-uri utilizatori. 
Flusurile multiple partajează un pipeline de execuţie a instrucţiunii cu 8 
etaje. Fluxurile de instrucţiuni sau procesele sînt comutate la fiecare peri- 
oadă de ceas, astfel că distribuţia resurselor procesorului este extrem de 
echitabilă. Organizarea acestei unităţi pipeline este prezentată în fig. 3.46. 
Astfel un PEM singur este un exemplu de calculator MIMD pipeline (vezi 
fig. 1.8.). PEM este controlat cu o coadă de așteptare care conţine descrip- 
torii proceselor (1 pentru fiecare flux de instrucţiuni). Descriptorul conține 
cuvîntul de stare al programului pentru fiuxul de instrucţiuni sau procesul 
pe care îl reprezintă. Printre alte informaţii mai conține numărătorul de 
program, pentru acel proces, actualizat; la fiecare pas prin INC PSW. 


Rețea 
comutare pachata 


Hi 
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Instrucţiunile propriu-zise se află într-o memorie program de 1 Mw, iar 
datele locale se află fie în 2048 registre pe 64 biţi, fie în 4096 locaţii de 
memorie read-only, rezervate pentru constantele cele mai des folosite. 
Unităţi funcţionale pipeline separate execută înmulțirea, adunarea și îm- 
părţirea în virgulă mobilă, operaţii cu întregi (IFU), creează operaţii (CFU) 


1 word i 
Hamorie program 


4096 
Conttante 


Îndicatari proces(PSW) 


Burta de 
control 


Exec= operație execuție 


Fig. 3.46 Modul de funcționare al unui PEM de la HEP. Bucla de 

control apare în stinga, iar bucla de execuţie în dreapta. Comutato- 

rul asincron este decuplat de la operarea sincronă a unităților func- 

tionale. (INC notează incrementul. IF notează extragerea instruc- 

ţiunii, iar DF notează extragerea datei PSW notează cuvintul de 
stare al procesului). 


și exeeută referințe la memoria partajată (SFU). La parcurgerea descrip- 
torilor de procese sint apelate și datele necesare. Datele părăsesc registrele, 
parcurg unitatea pipeline corespunzătoare, iar rezultatul este returnat 
memoriei registru sub controlul descriptorului de proces interpretat: de 
unitatea pipeline pentru instrucţiuni. Cînd deseriptorul de proces trece 
prin primul etaj, instrucţiunea este extrasă din memoria program ; în al 
doilea etaj se extrag datele adresate de instrucțiunea din registre sau memo- 
ria cu constante, care sînt transmise unităţii funcţionale corespunzătoare ; 
în timpul parcurgerii etajelor 3—7 datele sint prelucrate şi funcţia îndepli- 
nită ; în sfîrşit, în etajul al 8-lea rezultatul este memorat înapoi în regis- 
tre. 

Descrierea anterioară se referă numai la instrucţiuni care accesează 
date din registre sau memoria pentru constante. Dacă o instrucţiune 
folosește date din memoria partajată (DMM) descriptorul procesului este 
scos din coada de aşteptare a proceselor și introdus în coada de aștepiare 
SFU, pînă la obţinerea datelor de memorie. Se spune că deseriptorul este 
îndepărtat (wave off) iar locul său din coada de așteptare a proceselor 
poate fi ocupat de alt proces, sau coada poate fi scurtată. Acest mecanism 
permite ca această coadă să conțină numai procesele active. În acest mod 
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fiecare cuvint de stare al procesului (PSW) din descriptorul procesului 
poate păstra în permanenţă numărătorul de program actualizat la fiecare 
pas prin coada de control. În acest mod, toate operaţiile sînt sincrone cu 
excepţia accesului la memoria partajată. Aceasta, este gestionată în coada 
SFU care reînserează procesul îndepărtat în coadă de aşteptare, numai cînd 
pachetul cu date a sosit din DDM. 


Un nou flux de instrucțiuni (denumit proces) se iniţiază cu instrucţiu- 
nea mașină (sau FORTRAN) CREATE. Aceasta foloseşte CFU pentru a 
crea un descriptor de proces nou, pe care îl introduce în coada de aștep- 
tare a procesului. Se spune atunci că este un proces activ. Rămiîne aşa fie 
pînă cînd procesul este încheiat (de exemplu, o instrucţiune QUIT sau 
RETURN), fie descriptorul părăsește coada în timp ce aşteaptă date din 
memoria; partajată (wave-oft). Spre deosebire de transputer nu există nici 
un mecanism pentru întîrzierea pasivă a unui proces, pînă la marcarea 
unui time-out. 

Este instructiv să examinăm performanţa unităţii pipeline pentru 
instrucțiuni odată cu creşterea; numărului proceselor active. În. cazul unui 
singur task (colecție de procese utilizator) coada de aşteptare a proceselor 
poate fi considerată ca o coadă circulară cu pînă la 50 descriptori. Lungimea 
minimă a cozii de aşteptare a proceselor este 8 şi dacă sint active mai 
puţin de 8 procese, în coadă vor exista locuri goale. Acestea vor fi ocupate 
prin crearea unor procese suplimentare (pînă ce vor fi ocupate 8 procese), 
fără a modifica lungimea cozii, sau timpii de execuţie ai celorlalte procese. 
Astfel, cu cit se vor adăuga noi procese, viteza totală de prelucrare a ins- 
trucțiunilor va creşte liniar cu numărul proceselor active, deoarece există, 
mai puţine locuri goale în coadă, și deci se vor prelucra în acelaşi timp mai 
multe instrucţiuni. Acest proces continuă pină cînd vor fi 8 procese active 
şi unitatea pipeline este plină. În această situaţie viteza de prelucrare este 
maximă. O instrucţiune părăseşte unitatea pipeline la fiecare 100 ns, obţi- 
nindu-se o rată maximă de 10 Mips pe PEM, sau 160 Mips pentru un 
sistem complet cu 16 PEM. Dacă se creează mai mult de 8 procese active 
singurul efect; este creşterea lungimii cozii de aşteptare a proceselor. În 
acest mod viteza de prelucrare a instrucțiunilor scade, pentru fiecare pro- 
cesor lăsind viteza de execuţie totală a instrucţiunilor constantă la 10 
Mips pe PEM. 

Pentru a rezuma acest mecanism, viteza de prelucrare va creşte liniar 
cu numărul proceselor active pină cind unitatea pipeline este plină, după 
care rămîne constantă. Unitatea pipeline devine plină cînd există 8 procese 
active. Deoarece cele mai multe procese active vor folosi memoria parta- 
jată şi deci vor fi, în anumite momente, îndepărtate din coadă, practic 
vor fi necesare mai mult de 8 procese active pentru a menţine plină unita- 
tea pipeline. De fapt, în programele FORTRAN sint necesare 12—14 
procese active, care ar permite îndepărtarea momentană a 4—6 procese. 

Frumusețea acestui sistem este aceea că, chiar dacă un anumit utiliza- 
tor nu poate furniza procese suficiente, pentru a umple unitatea pipeline, 
ea, va fi încărcată în mod automat cu procese din alte task-uri sau Job-uri 
Astfel, HEP, poate lucra în multi-tasking la nivelul instrucţiunii, într-un 
singur procesor, fără overhead. Bineînțeles va: exista overhead, pentru 


crearea, şi distrugerea proceselor. 
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Pentru a deduce performanța efectivă a calculatorului HEP în cazul 
aplicaţiilor dominate de operaţii în virgulă mobilă, este necesar să ştim 
cite instrucțiuni sint necesare pentru o operaţie în virgulă mobilă. Această 
variabilă, notată cu iz, modifică astfel performanța asimptotică pe PEM : 


To = 10/is Mflop/s 


Evident i, trebuie să fie minimizat pentru a maximiza performanța 
in virgulă mobilă. Să considerăm cazul unei operaţii vectoriale diadice în 
care toate variabilele sint memorate în memoria partajată. Aceasta poate 
fi exprimată cu bucla : 


DO 10 I=1,N 
10(A()=B(I)0(I) 


Deoarece HEP nu are instrucţiuni vectoriale, această buclă trebuie 
programată cu instrucțiuni scalare. Dacă bucla era programată în limbaj 
de asamblare, s-ar fi folosit 6 instrucţiuni : 

(a) extrage B(I) din memoria partajată şi depune în registre ; 

(b) extrage C(I) din memoria partajată și depune în registre ; 

(c) execută o înmulţire scalară registru la registru ; 

(d) memorează rezultatul, A(I), în memoria partajată ; 

(e) incrementează I; 

(f) testează şi efectuează salt la începutul buclei. 

În acest caz is = 6 și Io = 1,7 Milop/s. Dacă toate variabilele s-ar fi 
aflat în registre, instrucţiunile (a), (b) şi (d) nu ar mai fi fost necesare, 
făcînd i, = 3 şi dublind performanța asimptotică la 3,3 Mflop/s. Optimi- 
zarea poate continua, obținindu-se rate de prelucrare de 4,5 și 6,7 Milop/s 
pentru operaţii cu memoria, respectiv registre, folosind 4 operaţii pe buclă. 
Sorensen (1984) şi Dongarra și Sorensen (1985) au arătat că poate fi atinsă, 
o performanţă de între 5 şi 6 Mflop/s pentru o serie de probleme cu matrici 
şi o utilizare rațională a registrelor PEM, ca spaţiu de memorie temporar 
pentru rezultatele vectoriale intermediare. Astfel, se reduce numărul refe- 
rințelor la memoria partajată, ca şi valoarea lui iz. 

Performanta se poate degrada cînd se folosesc mai multe procese sepa- 
rate pentru rezolvarea unei singure probleme, deoarece trebuie luat în con- 
siderare timpul necesar sincronizării fluxurilor separate de instrucţiuni, 
așa cum s-a arătat în $1.3.6. S-au executat teste (Tæ, S12) pentru a măsura 
overheadul de sincronizare la HEP. La acest test, se împarte activitatea 
caracteristică unei operaţii de înmulţire vectorială diadică memorie la 
memorie între P procese. Timpul de execuţie corespunde expresiei : 


t = T(S + Siz) 


unde atit ræ cît şi $1; Sînt funcţii de P. Timpul măsurat include lansarea 
in execuţie a P instrucțiuni la fiecare punct de sincronizare, ca şi timpul 
necesar detectării încheierii activității de către toate fluxurile. 

O analiză teoretică detailată a timpilor de execuție pentru testul ante- 
rior se găseşte în lucrarea lui Hockney (1984a), iar valori măsurate pentru 
Iæ Şİ Saya pentru o varietate de cazuri diferite în lucrarea lui Hockney și 
Snelling (1984) şi mai pe larg în lucrarea Hockney (1985c). Rezultatele 
arată că pentru un număr fix de procese, t este o funcție liniară de s5 gi 
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respectă. modelul de mai sus. Pe de altă parte, fig. 3.47 prezintă variaţia, 
timpului ca funcţie de numărul proceselor, pentru un s fixat. În acest caz, 
timpul descrește întîi la un minim, odată cu completarea locurilor în pipe- 
line. La P = Pop =12, timpul are valoarea minimă. Dacă ulterior P creşte, 
timpul crește treptat datorită intervalului mai mare necesar sincronizării 


Fig. 3.47 Numărul optim de procese necesare pentru 
funcţionarea unui PEM. 


unui număr mai mare de procese. Este clar, din acest exemplu, că nu se 
cîștigă nimic prin crearea a mai mult de 12 —14 procese pe un singur PEM, 
chiar dacă logica programului ar indica un număr mai mare. 

Fig. 3.48 arată valorile lui ræ şi Suy2 că o funcție de P pentru sineroni- 
zare de biiurcaţie/joneţiune. La această metodă procesele se creează cu 
instrucțiunea FORTRAN CREATE, după care dispar lată cu încheierea, 
calculelor. Performanta asimptotică creste liniar pină la atingerea valorii 
maxime, după care rămîne constantă. Valoarea maximă ro = 1,7 Milop/s 
este consistentă cu i; = 6, așa cum s-a menționat anterior. Analiza teo- 
retică, (linia, plină) anticipează că 8,2 ar trebui să crească pătratic cu P, 
variaţie detectată şi în practică. Punctul de lucru cel mai bun, indicat de 
săgeată, se obţine la atingerea performanţei maxime. Orice creştere ulteri- 
oară a lui P determină sporirea overhead-uiui (valoarea lui 8,2), fără a 
îmbunătăţi valoarea lui ræ. În punctul optim avem : 


FORK/JOIN 1» = 1,7 Mflop/s şi sa = 828 


Această metodă de sincronizare cere ca procesele să fie create şi dis- 
truse dinamic. Un proces este creat cu CREATE (FORK) şi lăsat să dis- 
pară la încheierea lui (JOIN). Evident această metodă de sincronizare este 
ineficientă, conducînd la valori mari pentru 8,2. Alternativa esté de a crea 
procesele numai în mod static şi de a realiza sincronizarea în alt mod. 
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Mecanismul de sincronizare este asigurat hardware, cu indicatorii plin/gol 
de la fiecare locaţie de memorie. Prin urmare, sincronizarea se poate 
realiza cu semafoare, prin utilizarea unor variabile comune. Un numărător 
iniţializat cu numărul proce- 
1000 selor concurente poate îi de- 
| 2” crementat cu unu la înche- 
ierea oricărui proces. Apoi 
ț toate procesele încheiate aş- 
„teaptă ca variabila să devină 
i zero, punct unde se reali- 

| zează sincronizarea. 


| Aceasta este o imple- 
i nat tdi mentare prin program a sin- 
v cronizării, care are cu mult 


mai puțin overhead decit 
20r crearea și distrugerea. dina- 
mică a proceselor. 


E = BARRIER r = 1,7 Mtlop/s 
Z și Sua = 230 
a, ip. T DEEN Pentru a testa efectul 
0 10 20 creşterii numărului de ope- 


P rații aritmetice pentru o refe- 
Fig. 3.48 Diagrame ce prezintă s1/s și Too funcție ae nu- Yinţă la memorie, s-a înlocuit 
mărul de procese, P, in coada de așteptarea proceselor. insrucțiunea 10 din bucla 
(1.5) cu: 
IF(A().LE.0.0) THEN 
C(I) = SIN(A(I)*EXP(B())) 
ELSE 
C(I) = COS{A(1)+EXP(B(I))) 
ENDIE : 
În acest caz toate operațiile aritmetice asociate cu evaluarea functiilor 
SIN, COS gi EXP se execută între variabile temporare memorate în regis- 
tre. Performanţa efectivă în Mflop/s este de aproape trei ori mai mare: 
FORK/JOIN ro = 4,8 Mflop/s și Sı; = 110 
BARRIER ro = 4,8 Mflop/s şi Sup = 190 
Este clar că în acest exemplu numărul mediu de instrucțiuni pentru o 
operație în virgulă mobilă s-a redus de la 6 la 2, în comparație cu varianta 
diadică vectorială. 


3.5 Multiplicarea—viitorul oferit de tehnologia VLSI 


3.5.1. Un start sub auspicii bune 


Apariţia circuitelor LSI și VLSI a dat un impuls important cercetării 
și dezvoltării arhitecturilor de masive de procesoare și multiprocesoare. 
În capitolul 1 s-au trecut în revistă proiectele de multiprocesoare, dispo- 
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nibilitatea microprocesoarelor ieftine gi puternice avind un efectcataliza- 
tor asupra acestor cercetări. Totuși, impactul puternic al tehnologiei VLSI 
este anticipat în domeniul masivelor de procesoare. Cum s-a subliniat; în 
capitolul 6, circuitele VLSI solicită o regularitate şi repetitivitate mare, 
pentru a se putea reduce timpul de proiectare şi a optimiza utilizarea supra- 
feței de siliciu. Masivele de procesoare seriale pe bit sint candidaţi ideali 
pentru VLSI (şi chiar pentru WSI), deoarece constau dintr-un număr 
mare de circuite relativ simple, multiplicate într-o modalitate foarte regu- 
lată, de obicei după o grilă bidimensională. 

Confirmarea o oferă numărul în creştere de lucrări științifice ce descriu 
proiecte ce se bazează pe masive conectate după o grilă. De exemplu, 
University College din Londra a continuat să dezvolte proiecte pentru 
CLIP (Fountain și Goetcherian 1980, Fountain 1983), iar ICL continuă 
să dezvolte DAP, sistemul descris în $3.5.2. Alte proiecte includ GEC 
GRID (Robinson şi Moore 1982, Arvind et al 1983). LIPP de la Universita- 
tea Linkoping, Suedia (Ericsson şi Danielson 1983)., NTT APP (Komdo 
et al 1983) în Japonia, connection machine de la Thinking Machines Cor- 
poration (care este descrisă în $3.5.3.) și proiectul RPA de la Universitatea 
Southampton (deseris în $3.5.4) .În cadrul tuturor acestor proiecte s-au) 
dezvoltat sau se dezvoltă circuite VLSI, care conţin între 16 şi 64 proce- 
soare binare. 

Se poate procura de pe piaţă o capsulă denumită GAP (NCR 1984) 
care conține 96 PE binare. Aceasta este un masiv 6X12 cu conexiuni 
între vecinii cei mai apropiați, care poate fi conectată în cascadă pentru 
a forma sisteme mai mari. Punctul slab îl reprezintă memoria intern 
mică, cîte 128 biţi pentru fiecare PE, ca și lipsa pinilor pentru conectarea 
unei memorii RAM externe. 

O altă realizare importantă, cu un impact major asupra sistemelor 
multiprocesor, o reprezintă transputerul INMOS (INMOS 1984). Acest 
circuit poate fi considerat fie ca un microprocesor pe 32 biţi, ca element 
de bază pentru construcţia sistemelor din noua generaţie, fie ca realizare 
hardware a unui proces OCCAM. OCCAM (INMOS 1984) este un limbaj 
de prelucrare paralelă ce se bazează pe CSP (Hoare 1984), descris într-o 
oarecare măsură în $4.4.2. 

Transputerul INMOS se deosebeşte de circuitele similare prin aceea 
că a fost proiectat să exploateze posibilităţile oferite de tehnologia VLSI. 
Ca şi alte microprocesoare produse recent are o arhitectură cu un set redus 
de instrucțiuni (RISC), iar spațiul economisit a fost folosit pentru crearea 
unei memorii RAM interne de capacitate mai mare, ca şi (cu aceeaşi impor- 
tanță) un sistem de comunicații pentru legături între transputere. Sistemul 
de comunicaţie este o implementare directă a protocolului asincron dintre 
procesele OCCAM. Prin urmare, procesele paraleie OCCAM pot fi direct 
distribuite pe un set de transputere interconectate. Transputerul şi sistemele 
înrudite sint prezentate mai pe larg în $3.5.5. 

Există deja mai multe proiecte care urmăresc să exploateze transpu- 
terul în cadrul unor sisteme paralele. Putem aminti cel putin două proiecte 
Alvey mari, un proiect ESPRIT propus de Universitatea Southampton 
şi multe proiecte finanțate de.diverse firme. Unul din obiectivele urmărite 


de Jan Barron (unul din cofondatorii firmei INMOS) a fost ca transpute- 
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rul să se vindă în cantități comparabile cu circuitele de memorie. Dacă 
æ va, realiza acest obiectiv, se va putea achiziţiona o putere de calcul mare 
(10 Mips) cu preţul unui circuit de memorie (aproximativ 10$). Transpute- 
rul T800, anunţat recent, execută 1—2 Milop/s, iar dacă preţul lui va 
putea fi coborit la nivelul a 50$, nu se va putea subestima impactul lui 
asupra calculatoarelor de mare performanţă. Deja cinci producători euro- 
peni şi doi americani au pe piață produse care folosesc mai multe transpu- 
tere, realizînd o putere de calcul apreciabilă, cu un preţ de cost acceptabil. 
Odată cu scăderea preţului transputerelor şi implicit şi al sistemelor, 
paralelismul sub forma sistemelor multiplicate se va răspindi pe scară 
largă. 

INMOS a planificat minuţios noile produse din gama transputerului 
şi, într-o mare măsură, sistemele construite pe baza transputerelor au un 
viitor asigurat. Pentru aceasta pledează legăturile de comunicaţie care 
lucrează la viteze standard (5, 10 şi 20 MHz), ceea ce asigură o interfață 
standardizată, simplă între generaţiile de produse. Primul produs transpu- 
ter, T414, şi succesorul lui, T800, sînt prezentate în $3.5.5., iar limbajul 
OCCAM în $4.4.2. Cele două secţiuni trebuie citite împreună pentru a se 
înţelege conceptele ce stau la baza sistemelor cu transputere. De asemenea, 
în $3.9.5., se abordează unele aspecte legate de construirea sistemelor 
cu transputere, cu exemplificare prin proiectele de la Universitatea 
Southampton. Trebuie să notăm că și RPA, prezentat în $3.5.4., foloseşte 
ca’ gazdă şi calculatoare de control pentru masiv transputere, exploatind 
in acest mod avantajul paralelismului proceselor inerent în OCCAM, ca 
şi interfețele standard pentru comunicaţii. 


3.5.2. LSI DAP și dincolo de el 


În cursul anului 1985, Royal Signals and Radar Establishment (RSRE) 
din Malvern a achiziționat primul sistem DAP 32x32, din a doua 
generaţie, construit pe baza tehnologiei LSI, pentru a-l folosi la aplicaţii 
radar şi alte prelucrări de semnale. În 1986 a fost instalată la DAP Support 
Unit de la QMC prima versiune comercială a aceleiași maşini. Acest proto- 
tip este interfațat cu un sistem mono-utilizator ICL Perg, cu sistem de 
operare PNX, o implementare ICL a sistemului UNIX. Odată cu această, 
livrare, IOL a continuat dezvoltarea tehnologiei DAP în cadrul unei firme 
noi, Active Memory Technology Ltd (AMT). Aceasta a reproiectat prototi- 
pul pentru scopuri comerciale. La sfirşitul lui 1987 s-au livrat primele 
exemplare unor beneficiari. În timp ce prototipul mini-DAP (cum. este 
cunoscut) conţine un circuit cu 16 PE, versiunea AMT foloseste unul nou 
cu 61 PE. t 


Arhitectura sistemului mini-DAP este, la nivel de element procesor, 
in linii mari aceeaşi cu a sistemului DAP. Diferența principală constă în 
adăugarea unor căi de I/E rapide, ca cea întilnită la GEO GRID (Robin- 
son şi Moore 1982, Arvind et al 1983) şi Goodyear MPP (Batcher 1980). 
Se foloseşte un registru suplimentar, conectat între PE, pentru a forma 


un registru paralel cu deplasare, care traversează masivul de la sud la 
nord. Registrul este comandat separat de către elementele procesoare, 
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care primesc instrucțiuni executabile de la unitatea de control master 
(MCU), vezi $3.4.2. Deplasările sînt comandate de unitatea rapidă de I/E 
care are şi rolul de memorie tampon pentru date și de a reformata datele 
în cursul transferului („on fly”). Datele pot fi deplasate în plan cu rata de 
1 cuvînt pe 32 biţi în interiorul sau exteriorul masivului la fiecare 100 ns, 
ceea ce înseamnă o lărgime de bandă de 40 MB/s. Cînd planul constituit 
din aceste registre a fost încărcat de unitatea de I/E, poate fi memorat 
de către memoria sistemului DAP prin furtul unui ciclu. Cu alte eutinte, 
operaţiile de I/E rapide pot avea loc simultan cu cele de prelucrare, ceea 
ce permite folosirea sistemului pentru aplicaţii în timp real, ca prelucrarea 
imaginilor sau a. semnalelor. 

Acest mecanism de I/E reprezintă o modificare importantă a filozofiei 
sistemului DAP. Primele calculatoare DAP erau implementate ca o com- 
ponentă a unui alt sistem, de exemplu ICL 2900, care îi asigură şi serviciile 
de I/E (vezi $ 3.4.2). Pe de altă parte, mini-DAP este un procesor extensie, 
care poate fi interfaţat cu o varietate largă de sisteme gazdă, sau poate 
funcţiona de sine stătător, funcţie de aplicaţia pentru care este folosit. 
În fig. 3.49 se prezintă o diagramă bloc a sistemului mini-DAP, care eviden- 
țiază căile importante de date. Calea rapidă de I/E lucrează ca un convertor 
serial/paralel. Cu excepţia acestei căi de date, masivul este același ca la 
DAP. Reţeaua de interconectare a procesoarelor este de tipul grilei, iar 
căi de date pe linie şi coloană eonectează elementele procesoare la celule 
binare din MCU şi HCU (unitatea de conectare a calculatorului gazdă). 
Într-adevăr, mini-DAP este compatibil cu predecesorul său la nivelul 
codului sursă scris fie în FORTRAN (DAP), fie în limbaj de asamblare 

APAL). 
Prototipul mini-DAP este implementat în tehnologie TIL şi CMOS, 
masivul de elemente procesoare fiind constituit din submasive 4x4 


ă | Magistrala 


Plan de i/E rapidă 


i/E rapid 


Fig. 3.49 Structura calculatorului 
ICI. mini-DAP, cu un plan de I/E 


Memoria DAP rapid şi un bufer, 


(pina ta r 
3232x1Mbiți) 
DAP PEs 
(32x32) 
Magistrala 
i/Elenită 


implementate în circuitul National 6224. Acest circuit folosește tehnologie 
CMOS. Folosirea acestei componente, împreună cu progresele înregistrate 
de tehnologia memoriilor în ultimii 5—10 ani a determinat o reducere sub- 
stanţială a numărului de capsule folosite de sistemul mini-DAP. Primul 
calculator DAP utiliza în medie 5 capsule pentru un PE, în timp ce 
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Tig. 3.50 Fotografia prototipului mini-DAP, care ilustrează aspectul fizic al ca- 
binetului. (Fotografie pusă la dispoziție de AMT Ltd.). 


Fig. 3.51 Fotografie a unei plăci masiv dela mirii-DAP, ce prezintă 

tehnologia folosită. Capsulele pătrate, mai mari, sint masive de 

porţi LSI care conţin 16 procesoare. (Fctografie pusă la dispo- 
ziţie de AMT Ltd.) 
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mini-DAP foloseşte un masiv de porți şi 8 circuite de memorie (opţiunea 
de 1MB) pentru un sub-masiv 4 x 4. Această reducere a ordinului de mărime, 
combinată cu dimensiunea mai mică a masivului au permis introducerea 
maşinii într-un cabinet de birou. Sistemul consumă mai puţin de 1 KW. 
Fig. 3.50 şi 3.51 prezintă aspectul fizic, respectiv tehnologia folosită. 

La următorul nivel de implementare se află plăcile care conţin fiecare 
cite 128 PE organizate ca un masiv 16x8. Placa mai conţine 128x8 K 
memorie necesară în cazul opțiunii de 1MB, sau 128x16 K pentru opţiu- 
nea de 2MB. Masivul 32 x 32 este format din 8 plăci. Restul sistemului este 
implementat pe încă 8 plăci; două sint folosite pentru decodificarea ins- 
trucțiunilor, verificarea parităţii ete. ; alte două formează MOU şi memoria 
program separată; cele rămase reprezintă interfețele, HOU şi unitatea de 
I/E rapidă. 

Principalele două diferenţe arhitecturale față de sistemul DAP se 
află la nivelul MCU şi al unităţilor de control suplimentar, cum sint 
HCU şi unitatea de I/E. Aceste facilităţi fac ca mini-DAP să fie considera- 
bil mai puternic decît DAP. De exemplu, la nivelul MOU există instrucţiuni 
suplimentare, ca cea de înmulțire, deplasare cu n poziţii și pentru gestiu- 
nea întreruperilor. La DAP microcodul memorat în masivul DAP era extras 
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Fig. 3.52 Unitatea de control de la mini-DAP. 


și executat într-un ciclu cu două faze, dar la mini-DAP există o memorie 
separată pentru cod, care nu adaugă deloc overhead la ciclul instrucțiune. 
Memoria pentru cod este în mod obișnuit de 32 K x36 biți, deşi există 
posibilitatea adresării unui spațiu de 1 Mw. Noul MCU este ilustrat în 
tig. 3.52. 
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Fig. 3.53. prezintă unitatea rapidă de I/E de la mini-DAP, care se 
interfațează cu magistralele de intrare şi ieşire pe 32 biţi, care formează 
planul de I/E. Conţine două bufere de 64 KB fiecare, care pot fi configu- 
rate separat sau împreună. Prin program ele pot realiza reformatarea 
datelor transmise masivului DAP. O astfel de posibilitate (întoarcerea la, 
90° — corner turning) este prezentată schematic în fig. 3.54. 

Prototipul mini-DAP are ciclurile instrucţiune de 155 ns, cu aproxi- 
mativ 25% mai rapid decit la DAP, deşi viteza maximă de prelucrare este 
mai mică pentru că şi numărul elementelor procesoare s-a redus la un sfert. 
Unele valori de performanţă sînt date în tab. 3.9. 

Odată cu creșterea densităţii de integrare la noul sistem AMT DAP, 
va fi posibilă realizarea unei maşini cu aceleași dimensiuni, dar care să 
conţină 4096 PE, ca la DAP. Această mașină va avea şi un ceas mai ra- 
pid, cu perioada probabilă de 100 ns. Combinarea acestor elemente va, pro- 
duce o creştere de 6 ori a performanţelor față de cifrele furnizate. Totuși, 
este improbabil ca aceste mașini să concureze pe piața științifică, unde sint 
necesare operaţii în virgulă mobilă. T800 ar putea realiza performanţele: 
enumerate anterior cu 5 pînă la 10 circuite. Aplicațiile unde arhitecturile- 
seriale pe bit sint cele mai bune, sint cele unde poate fi exploatată flexi- 
bilitatea lungimii cuvîntului ; de exemplu, la prelucrarea semnalelor și a 
imaginilor, Se poate vedea în tab. 3.9 că viteza de execuţie a adunării este 
invers proporțională cu lungimea cuvîntului. 
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Fig. 3.53 Sistemul rapid de IjE de la mini-DAP. Fig. 3.54 Reprezenta- 


rea modului de re- 
formatare, la 90° ; þu- 
ferul poate fi accesat 
după două direcţii or- 
togonale. 


Alte aplicaţii unde excelează această clasă de arhitecturi sint cele unde: 
sint necesare operații de emisie sau reducere. De exemplu, la prelucrările 
asociative, gestiunea bazelor de date ete. 


18—c, 302 273. 


Tabelul 3.9 Citeva cifre de periormanţă pentru prototipul mini-DAP. Aceste valori sint pentru un, 
masiv 32 x 32 cu perioada ceasului de 155 us. Toate cifrele sint milioane de operaţii pe sceuudă. 


Lungimea Cuviutnlui Operaţie Performanţa 

:8 biţi | Adunare 280 
Înmulțire 42 : 
Înmulțire (constanta) 100—200 

16 biți Adunare 140 
Înmulțire 10 
Înmulțire (constanta) 30—100 

:32 biți în virgulă mobilă Adunare 8,6 
Înmulțire 5,1 
Ridicare la putere 10,9 
Rădăcină pătrată 7,4 
Împărțire 4,1 
Log 4,2 


3.5.3. Connection machine 


Connection machine a fost realizată pe baza studiilor efectuate la 
MIT de Hillis și alți cercetători, pentru o maşină paralelă dedicată aplicații- 
lor de inteligență artificială. Deși Hillis afirmă în lucrarea sa cu același 
titlu (Hillis 1985) că este „un nou tip de mașină de calcul”, implementarea 
se bazează în mare măsură pe experienţa calculatoarelor seriale pe bit şi 
conexiuni după două direcţii ortogonale, care au precedat-o. Ceea ce dis- 
tinge connection machine de predecesori este folosirea unei reţele de comu- 
tare complexe care asigură legături programabile între oricare două proce- 
soare. Aceste conexiuni pot fi schimbate dinamic în cursul execuţiei pro- 
granelor, ele folosind conceptul comunicaţiei prin pachete. Datele sint 
transmise prin reţea, care are topologia unui hipercub cu 12 dimensiuni, 
către o adresă conținută în pachet. Datorită topoiogiei reţelei, un bit al 
adresei binare corespunde ia unul din cele două noduri situate după fiecare 
dimensiune a hipereubului (vezi $3.3.). 

Connection machine își trage numele și puterea din această abilitate 
de a stabili conexiuni arbitrare între procesoare ; totuşi, s-au făcut multe 
compromisuri şi nu este clar dacă proiectanţii au suficientă experienţă 
în tehnologiile de implementare. Un hipercub cu 12 dimensiuni necesită 
o cantitate considerabilă de fire electrice şi, aşa cum s-a aîmrmat în capitolul 
6, aceasta, poate contribui la creşterea excesivă a costului și degradarea, 
performanţelor. Oricum, principiile care stau la baza mașinii sînt lăudabile, 
în asigurarea unei arhitecturi cu multiplicare virtuală, pe care poate îi 
„distribuită în mod transparent descrierea problemei utilizator ce urmează 
a fi rezolvată, 

Connection machine nu este singurul calculator serial pe bit la pro- 
iectarea căruia să se fi plecat de la problemele de reprezentare a informaţiei 
şi adaptabilitate. Proiectul RPA de la Universitatea Southamton ($3.5.4) 
-este tot o arhitectură de masiv adaptiv care are un sistem de comunicaţii 
capabil să creeze conexiuni arbitrare între procesoare, şi să le modifice în 
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mod dinamic. Connection machine implementează conexiunile într-o reţea 
de transmisie a pachetelor serial pe bit, organizată într-o topologie lentă 
de cub binar, dar cu un grad mare de generalitate. Pe de altă parte, RPA 
implementează conexiunile prin comutarea circuitelor unei rețele conformă 
tehnologiei de implementare planară. Există şi posibilitatea unor comuni- 
caţii la distanţă mare, care pot fi neregulate. Acestea sint implementate 
cu prețul scăderii puterii de calcul, deoarece se folosesc elemente procesoare 
ca elemente de comutare a circuitelor. Acest ultim compromis nu trebuie 
aă fie fixat în momentul proiectării sistemului. De exemplu, la connection 
machine, 50% din circuite sint dedicate structurilor de comunicaţie. La 
RPA, întregul circuit este folosit pentru PE, dar în cursul compilării sau 
execuţiei, unele dintre ele vor fi folosite ca elemente de comutare. 

Recomăndăm cititorului să compare aceste două soluții ale proble- 
mei de comunicaţie. Conexiunea directă asigură o implementare hard- 
ware eficientă și realizează o lărgime de bandă mare. Pe de altă parte, 
comutarea pachetelor este mai costisitoare, dar asigură o utilizare mai 
eficientă a reţelei pentru o gămă largă de structuri de date. Mai mult, 
această soluţie permite utilizarea implicită şi dinamică a sistemului. 

Connection machine a fost realizată de Thinking Machines Corpo- 
ration, o companie co-fondată de Hilis. Prototipul, denumit CM—1, 
constă dintr-un masiv de celule procesor/memorie, care sînt conectate 
împreună cu o reţea de comunicaţii programabilă pentru a forma struc- 
turi dependente de date, denumite structuri active de date. Modul de 
lucru al acestor structuri este comandat de un calculator gazdă care 
accesează memoria masivului printr-o magistrală; de date. Din acest punct 
de vedere, connection machine este similară sistemului ICL 2900/DAP 
şi chiar sistemului transputer/RPA descris în continuare. În toate cele 
trei cazuri memoria masiv poate fi considerată ca aparținind sistemului 
gazdă, astfel încit acesta să poată adresa şi modifica locaţii ale memo- 
viei masivului. Pentru task-uri cu un volum mare de calcule, gazda poate 
determina masivul să acceseze şi prelucreze date aflate în această memo- 
rie partajată. In acest mod, se distribuie puterea de calcul în memoria 
sistemului gazdă, eliminindu-se stranguiarea von Neumann care ar in- 
terveni altfel în cazul unei realizări uni—procesor cu viteze de calcul 
comparabile. 

Masivul de memorie activă de la CM—1, DAP și RPA este o con- 
figuraţie foarte puternică, care permite execuţia foarte rapidă a activi- 
tăţii de sincronizare. Aplicaţii tipice ar impune emisia de informaţii în 
masiv, chei (de exemplu pentru activarea datelor), anumite prelucrări 
ale datelor active, urmate de o reducere a informaţiei dişeminate de sis- 
temul gazdă, folosind selecţia (adresarea memoriei masiv) sau reducerea. 
(min, max, suma etc.). 

Masivul procesor/memorie constă la CM—1 din 65 536 procesoare, 
fiecare cu 4096 biţi de memorie. Aceasta este implementată cu circuite 
VLSI care conţin fiecare 16 PE şi circuite RAM static de 4 x4 K. În 
interiorul capsulei, elementele procesoare sint conectate după direcţiile 
N, S, E şi V cu o reţea denumită „NEWS, dar conform numărului 
de pini, specificat în lucrarea lui Hillis (1985), se pare că prototipul nu 
extinde această conectivitate şi în exterior. Fig. 3.55 ilustrează această. 
situaţie. Conexiunea hipereub binară asigură legătura la nivelul capsulei, 
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iar cele 16 PE din interior partajează lărgimea de bandă a unei scheme 
de transfer a pachetelor (router). De aceea, maşina poate fi considerată, 
ca un hipercub cu 12 dimensiuni, cu noduri constituite din 4 x4 PE 
binare. Fiecare capsulă conţine o schemă pentru transfer care gestio- 
nează mesaje de la cele 16 procesoare, către unul din cele 12 fire bi- 
direcţionale. Prin urmare, rețeaua 
este formată din 4096 scheme de 
transfer, conectate prin 24 576 
fire electrice. Aceasta înseamnă 
o densitate de fire foarte mare în 
comparaţie cu alte masive de pro- 
cocmbieij  Cesoare seriale pe bit. 
plai Capsula procesor a fost imple- 
mentată în tehnologie CMOS, are 
aproximativ 1 cm? și conține în jur 
de 50000 tranzistoare. Disipă 1W 
la 4MHz și este introdusă într-o 
capsulă ceramică cu 68 pini; rea- 
lizarea unei reţele NEWS izomor- 
fice pe întreaga mașină ar necesita 
32 pini suplimentari pe capsulă. 
4 SA Fiecare capsulă procesor este în- 
ie soţită de 4 capsule de memorie 
statică 4K x4, pe o placă aflin- 
du-se 32 capsule procesor şi 128 capsule de memorie, ceea ce înseamnă 
un total de 512 celule procesor/memorie. Modulele sînt plasate în ser- 
tare, cîte 16 în două sertare, conţinute de un rack. Maşina ocupă 
4 rack-uri, 

Ierarhia tehnologiei de implementare simplifică conectica pentru 
rețeaua cub, deoarece primele 5 dimensiuni se află pe o placă cu circuite, 
următoarele patru într-un sertar și celelalte trei în rack-uri. Chiar aşa, 
la nivelul superior al cubului, fiecare muchie constă din 8192 perechi 
de fire, realizate cu cabluri bandă. Maşina este răcită cu aer, lucrează 
la 4 MHz şi disipă 12 KW. Comparind frecvența ceasului și dimensiunea, 
masivului, ne-am putea aştepta la o performanță cu un ordin de mărime 
mai mare față de cea de la DAP, dar pentru unele aplicații nici această 
performanță nu a fost atinsă. 

O unitate de control microprogramată conduce masivul, prin sin- 
cronizarea cu un ceas unic. Instrucţiunile de la gazdă (denumite macro- 
instrucţiuni) și datele returnate sint introduse înu-o stivă FIFO, aflată 
între gazdă şi micro—controler, Aceste zone tampon echilibrează fluxul 
de microinstrucțiuni și date dintre gazdă şi micro—controler. Fiecare 
apel la o micro—rutină, denumită de Hillis (1985) micro—instrucțiune- 
poate avea, nevoie de citeva sau mai multe mii de perioade de ceas, func- 
ție de datele prelucrate. 

Celula procesor de la CM—1, tipică multor sisteme seriale pe bit, 
este reprezentată în fig. 3.56. Operația de bază a celulei este o operaţie 
cu 5 adrese, cu biții celor două surse şi ai destinaţiei furnizaţi de la, 
sau la memoria externă. Aceștia sint adresaţi cu două cimpuri a 12 biţi, 


Fig. 3.55 Connection machine 
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destinația avind aceeași adresă cu unui din operanzi. Trei adrese pe 4 
biti sint folosite pentru registre de intrare/iesire ale ALU gi un registru 
indicator de condiţii; aceste adrese sint interne capsului PE. Ultima 
adresă pe 4 biţi specifică care din registrele indicatoare de condiţii va 
fi folosit ca indicator condiţional sau de 
activitate. Această operație consumă trei 
perioade de ceas. Două cîmpuri de control 
pe 8 biţi definesc una din 256 funcţii boo- 
leene posibile, cu trei intrări pentru fiecare 
ieșire. Oricare din cele 16 indicatoare de con- 
diţii poate asigura un control local on/off, 
iar un sumator realizează funcţia logică 
SAU a unui semnal de la toate procesoa- 
rele din masiv. 

Un minus al acestui calculator este ex- 
ploatarea slabă a masei de fire care consti- 
tuie rețeaua hipercub. Se poate afirma că 
firele de conectare reprezintă componenta Fig. 3.56 Elementui procesor de 
cea mai costisitoare în sistemele moderne la connection maciwne. ALU pro- 
ce folosesc tehnologie VLSI. Datele sint gue dous iein, cere pot t una 
transferate ciclic, în cursul fiecărui ciclu tri- trei intrări, 
mițindu-se un mesaj după o direcție. Aceasta 
înseamnă că se folosesc numai 1/12din totalul de fire. Evident, o schemă care 
ar transfera date simultan după cele 12 direcții ar fi costisitoare, ceea ce face 
ca autorii să se îndoiască de viabilitatea unei rețele cu 12 dimensiuni. 
Cu 11/12 din lărgimea de bandă nefolosită, se poate obține aproximativ 
aceeași lărgime de bandă pentru comunicaţii la distanţă, ca şi o lărgime 
de bandă pentru transmisii pe distanţe mici mai mare, cu o reţea NEWS 
de transmisie a pachetelor, cu transmisie şi recepție concurentă după 4 
direcții. O astfel de reţea a fost implementată prin program, relativ efi- 
cient, pe RPA, sistem descris în § 3.5.4. 


Tadelui 3.10 Performanţa prototipului CM-1 cu 64 K procesoare. 


Caracteristica de performanță Valoare 
Dimensiunea memoriei 2,5 x 108 biţi 
Lărgimea de bandă la memorie . 2,0 x 1011 b/s 
Lărgimea de bandă a procesorului * 3,8 x 1011 b/s 
Lărgimea de bandă a comunicaţiei 

cazu! cel mai defavorabil 3,2 x 107 b/s 
caz tipic 1,0 x 10? b/s 
cazul cel mai favorabil 5,0 x 1010h/s 


* Lărgimea de bandă a procesorului măsoară numărul de biţi care intră şi părăsesc ALU 
într-o secundă şi nu numărul de operanzi pe secundă. 


Cititorul interesat poate găsi informații suplimentare privind Con- 
nection Machine în cartea lui Hillis (1985). În particular, funcţionarea 
reţelei de comunicaţii este descrisă mai pe larg. Tab. 3.10 prezintă per- 
formante ale sistemului CM—1, așa, cum ie-a prezentat Hillis, 
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Mediul de programare se bazează pe LISP, limbaj cu o istorie veche 
la M.I.T. Connection Machine LISP (CMLISP) este o extensie a limba- 
jului LISP, proiectată special pentru modul de lucru paralel al calcula- 
torului. Este un limbaj SIMD care reflectă modul de funcţionare a cal- 
culatorului gazdă şi micro—controlerului, ce permite exprimarea opera- 
țiilor cu structuri de date paralele. CMLISP este faţă de LISP ceea ce 
este FORTRAN x (vezi $4.3.3) faţă de FORTRAN 77. Limbajul 
este prezentat complet în lucrarea lui Hillis și Steele (1985), fiind pre- 
zentat complet în lucrarea prezentă în $ 4.3.4. 


3.5.4 RPA 


(î) Masive de procesoare reconfigurabile 

EPA este o arhitectură proiectată pentru prelucrarea structurilor 
definite în § 4.3; masivul folosește multe procesoare simple și îşi poate 
adapta structura fizică într-o oarecare măsură corespunzător structurilor 
de date. RPA este proiectat să prelucreze structuri de date, consistente 
cu reţeaua adaptabilă folosită; totuşi restricţiile nu sint chiar atit de 
severe pe cît ne-am aştepta, pentru că include astfel de structuri 
ca arborii binari. RPA a tost dezvoltat la Universitatea Southampton 
cu fonduri ale programului Alvey (Jesshope 1985, Jesshope 1986 a, 
D, e, Jesshope et al 1986, Rushton și Jesshope 1986, Jesshope şi 
Stewart 1986, Jesshope 1987a, b). Este similar sistemelor DAP gi 
connection machine în aceea că este un masiv de elemente proce- 
soare binare cu un micro—controler comun. Nu este o maşină SIMD 
în totalitate, deoarece este posibilă modificarea locală a unei instrucțiuni 
prin distribuirea unor cîmpuri ale cuvintelor de control în masiv. Aceasta 
permite adaptarea masivului la situaţii diferite. Fig. 3.57 ilustrează acest 
concept pentru masive bi-dimensionale. 

Este bine cunoscut că o structură sincronă ca aceea a unei mașini 
SIMD are dimensiunea limitati, deoarece impulsurile ceasului gi infor- 
maţia de control trebuie «listribuite pentru sincronizarea sistemului. Orice 
diferență la distribuirea acestor semnale va determina reducerea frec- 
venţei ceasului. Există, prin urmare, o dimensiune optimă pentru RPA, 
care va depinde de caracteristicele de implementare şi încapsulare. În 
mod obişnuit, masivele conțin pînă la 256 x256 procesoare, cite 16 pe o 
capsulă VLSI. Oricum, dimensiunea unui sistem RPA nu este limitată 
de dimensiunea blocului sincron optim, deoarece poate fi extinsă în con- 
tinuare prin folosirea paralelismului procesului (vezi $ 4.4). 

RPA se află în interiorul sistemului de memorie al unui transputer, 
ca memorie activă, iar execuţia proceselor pe RPA poate fi considerată 
ca o extensie a setului de instrucţiuni al transputerului în cadrul mode- 
lului de programare OCCAM. Un alt mod de exprimare ar fi că para- 
lelizarea proceselor de către transputer și OCCAM este folosită pentru 
unirea mai multor sisteme sincrone capabile de o execuţie eficientă a 
structurilor paralele. Prin urmare, RPA poate fi considerat fie ca un 
masiv de procesoare cu un transputer ca gazdă, fie ca un sistem de me- 
morie inteligentă a transputerului, care poate fi multiplicată ea orice alt 
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sistem cu transputere. Multiplicarea poate exploata paralelismul explicit 
al OCCAM-ului, în ceea ce priveşte descrierea structurilor prin imple- 
meutarea comunicaţiilor prin legăturile INMOS. Tehnica paralelismului 
algoritmic (vezi $4.5.2) poate îi exploatată în cadrul unui sistem 
cu mai multe RPA. 


În orice sistem care folo- ua microprocesor pe 1024 biti — 
egte multiplicarea, problema [a 
conceptuală majoră este cea 
a repartizării procesoarelor 
virtuale definite în cadrul 
descrierii problemei pe o 
structură fixă. În acest sens, 
un aspect important al sis- 
temului RPA este faptul că 
permite adaptarea structurii 
masivului la problema im- 
plementată. În acest mod se 
simplifică mult sarcina com- 
pilatorului, de distribuire a 
datelor pentru a obţine iden- 
titatea între imaginea utili- 
zatorului despre universul 
problemei, cu cea a mașinii. 
În acelaşi timp se realizează şi Fig. 3.57 Ilustrare a abilității RPA de a se adapta la 
o utilizare înaltă a hard-ului. diferite structuri dreptunghiulare. 

În mod ideal, într-un masiv de procesoare pentru prelucrarea struc- 
turilor, ar trebui să fie un element procesor pentru fiecare dată a struc- 
turii prelucrate. Din păcate, nu există nici o posibilitate de a ști îna- 
inte cât de mare sau mică va; fi structura. Ea poate varia dinamic. Struc- 
turile mai mari decit masivul sint convenabile, deoarece fiecare proces 
poate prelucra secvențial atît de muite elemente ale structurii de date 
cite sint necesare. Intervin, totuși, probleme de menţinere a topologiei 
structurii de date, în special dacă structura este complexă. Corolarul 
este abilitatea de a repartiza mai mult de un procesor unui element 
aparținind structurii de date și acest lucru este mai puţin înţeles. Da 
fapt, aceasta este diferenţa importantă dintre RPA și alte masive de 
proccscare seriale pe bit. l 

Pentru atingerea acestei flexibilități, s-a extins modelul de execuție 
SIMD prin aceea că procesoogrele pot modifica instrucțiunea emisă. Pro- 
cesoarele pot lucra într-un mod diferit, dar pre—programat local. Ex- 
tinderea controlului local asigură atit flexibilitate cît și eficiență în cazul 
celor mai obişnuite operaţii de calcul și de comunicaţii. Se poate arăta, 
că în afara faptului că structura masivului poate fi variată în formă, şi 
dimensiune, permite o implementare eficientă a operaţiilor de manipu- 
lare a datelor, inclusiv cele cu structuri de date neregulate. De exemplu, 
alte topologii, ca arbori sau graiuri, pot fi implementate eficient, deși 
nu cu flexibilitatea dinamică a sistemului de comunicaţii cu pachete. 
Totuși, mecanismele pot fi exploatate pentru realizarea unor implemen- 


Masiv xl microprocesoare pe 6b biti 


Masi 16x8 de micr 


rocesoare pe 8 biti 
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tări software eficiente a comunicaţiei cu pachete la RPA, aşa cum se 
va arăta ulterior. 

Soluţia RPA la paralelismul cu structură virtuală permite execuţia 
unui cod unic pe diferitele variante fizice ale sistemului, fără nici o mo- 
dificare ; mai mult, acest lucru este adevărat la nivelul inferior, deoarece 
rutinele microprogramate se pot adapta la configurații diferite ale di- 
mensiunii şi structurii masivului prin parametrizare. 


(ii) Implementarea RPA 

Masivul RPA este construit cu un element procesor foarte flexibil, 
sub forma unei latice bi-dimensionale, 4—conexă. În fig. 3.58 este pre- 
zentat un sistem RPA. Masivul a fost proiectat să lucreze ca un lanţ 
de procesoare virtuale, conectate conform structurii ce este prelucrată. 
Fiecare PE trebuie considerat ca o secţiune binară a unei unităţi de 
prelucrare mai mare, care va executa o gamă, largă de operaţii comune 
microprocesoarelor. Unitatea procesoare compusă execută operaţii bi- 
nare, operaţii de deplasare și de calcul puemi pe bit. Aceste unități 
procesoare pot fi configurate dina- 
mic, dacă este necesar, folosind orice 
cale care conectează elementele pro- 
cesoare. Configurațiile cele mai utile 
sînt sub—grafuri apropiate structu- 
ral masivului RPA, deoarece acestea 
permit execuția operațiilor de depla- 
sare eiclică şi de lungime dublă în- 
tr-un micro—ciclu şi simplifică sem- 
nificativ operațiile aritmetice seriale 
executate cu date memorate în uni- 
tăţile procesoare. De exemplu, exe- 
cuția, serială a operaţiilor aritmetice y dìd 
pe 16 biţi cu unități procesoare pe Mbits Ad 
4 biți face ca bitul de transport de 
2 bitul de rang trei al unei tetrade 


42 ta 2562 
x64Kbiți 


să fie adiacent bitului de rang 0, ; azdi le 
unde este necesar la următorul ciclu. | EP adică 
Dacă se configurează procesoare pe ti: 
mai mulţi biți ca bucle închise de 
PE atunci configuraţiile vor executa i || p Mbit i 
următoarele operaţii : " VEsataité 

(1) toate operațiile logice binare si teme 


cu doi operanzi (două operaţii pro- gata 
P P Vu p Fig. 3.58 Sistemul de calcul RPA, cu inte- 


gramate independent pot fi execu- racțiunile dintre masiv, controler și siste- 
tate într-un singur ciclu) ; mul gazdă. 

(2) deplasări ciclice şi planare (aritmetice) ; 

(3) deplasări ciclice și planare (aritmetice) de lungime dublă; 

(4) copierea unui bit de către toţi ceilalți în cadrul unui procesor; 
(5) operaţii aritmetice cu transport anticipat, prin tehnica lanţului de- 
propagare rapidă a transportului Manchester, realizată prin operaţii mul- 
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tiple pe „bait”, cu propagarea automată a transportului între sub—ope- 
raţii ; 

(6) înmulţire cu rezultat pe lungime dublă, prin folosirea adunărilor mul- 
tiple cu transport anticipat (5), deplasări pe lungime dublă (3) şi copi- 
erea bitului (4). 

Elementul procesor are o structură cu 4 magistrale, așa cum se arată 
în fig. 3.59, două magistrale pentru operanzi şi două pentru rezultate, 
ALU execută operaţiile logice şi aritmetice- folosind numai operanzi lo- 
cali, iar mecanismul de selecție al vecinului permite transferul datelor 
de la un PE la altul. Operaţiile aritmetice paralele pe bit sînt posibile 
prin folosirea atît a unităţii aritmetico—logice, cît şi a selecţiei vecinului 
care, împreună, formează un sumator rapid Manchester. Cheia flexibi- 
lităţii masivului constă în folosirea cimpurilor prestabilite de control, 
asigurate fiecărui PE din masiv, R, în fig. 3.59. Acestea sînt folosite 
la programarea comutatoarelor şi la operaţiile aritmetice şi de deplasare. 

Două din aceste cîimpuri, fiecare de doi biţi, specifică modul de con- 
trol al comutatorului vecinului cel mai apropiat (deplasări la stînga și 
uteapta) ; registrul de reconfigurare conţine de asemenea un cîmp cu 
biţi care defineşte semnificația elementului procesor în cadrul unităţii 
mai mari de prelucrare. Codurile folosite sînt pentru bitul cel mai sem- 
nificativ, cel mai puțin semnificativ şi oricare alt bit. Codul rămas este 
folosit pentru o posibilitate foarte puternică care permite intrărilor co- 
mutatorului să fie conectate direct la ieşire. Astfel, se distribuie controlul 
comunicaţiei, similar căilor de linie şi coloană întilnite la ICL DAP şi 
GEC GRID. Totuși, acest lucru se realizează într-o manieră mult mai 
flexibilă, deoarece se poate folosi combinaţia codurilor de direcție şi sem- 
nificaţie pentru. interconectarea oricărui şir de PE. Conexiunile pot fi 
folosite fie pentru distribuirea datelor tuturor elementelor procesoare in- 
terconectate, fie pentru ocolirea PE pentru a implementa structuri de 
conectare care altfel nu ar fi posibile. 

Memoria fiecărui PE funcționează ca o stivă. Există o stivă pe un 
bit şi o stivă pentru activităţi, pentru memorarea datelor formate din- 


intrări, ce la Port-RAM 
vecini ză l 


Stivă pe bit 


le sire 
vecini 


Magistrale operand 
Fig. 3.59 Elementul procesor RPA (bit-slice). 


tr-un bit, în fiecare PE. Fiecare constă din 8 biţi identici pentru date, 
cu excepţia faptului că bitul din vîrful stivei de activitate poate fi folosit; 
pentru decuplarea condiţionată a elementului procesor. In PE mai există 
memorie și pentru date. Acestea formează o stivă pentru cuvinte pe 8 
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biţi care pot fi convertite paralel—serial şi serial—paralel cu o pereche 
de registre cu deplasare. Se pot executa, operaţii aritmetice serial pe bit 
(sau serial pe cuvînt), fără a se înregistra incomoda inversare a biţilor 
înregistrată la folosirea stivelor. În sfirşit, un port de I/E pe un bit per- 
mite conectarea a pină la 64 K biţi de memorie externă la fiecare PE. 

Memoria internă RAM are mecanisme de control dual care permit 
accesul aleatoriu sau în mod stivă la baiţii unui cuvint prin control 
local sau global. De exemplu, stiva poate fi scrisă sau citită condițional, 
funcție de valoarea stivei de activitate. Structura de memorare 'mai con- 
ţine un registru cu deplasare cu n poziţii, comandat local și circuite 
de comparaţie între cele două registre cu deplasare care realizează con- 
versia serial—paralel. Aceste posibilităţi permit execuţia mult mai bună 
a operaţiilor în virgulă mobilă. Pentru o anumită durată a tactului şi 
o dimensiune a masivului, performanţa în virgulă mobilă poate fi la 
RPA de 10 ori mai mare decit la ICL DAP. Preţul plătit este complexi- 
tatea mai mare a elementului procesor. S-a fabricat, pînă în momeniul 
redactării lucrării de faţă, o capsulă cu un singur PE. S-a folosit teh- 
nologie CMOS 34m, iar suprafața utilă este de 4 mm?. Capsula cu 16 PE. 
va ocupa aproximativ 0,8 cm?. Fig. 3.60 prezintă, acest circuit de test. 


(iii) Sistemul de control la RPA 

În general, masive de procesoare ca DAP sau Connection machine fo- 
losesc un singur controler. Astfel, se obține o mașină foarte eficientă prin. 
partajarea unui mecanism de control complex între multe procesoare. Totuși, 
RPA. diferă de această structură de control în două moduri. 


RPA poate fi considerat la un nivel ca un sistem MIMD, cu fiecare 
„„procesor” conţinind un masiv de procesoare sub contro! SIMD. Această 
structură (MIMSIMD) a mai fost propusă și de alți proiectanți (Lea 1986) 
şi permite exploatarea în cadrul aplicaţiilor a tuturor formelor de parale- 
lsm. Componenta de sincronizare poate exploata paralelismul structurii, 
ca masive, şiruri, liste şi arbori, iar nivelul MIMD sincronizat prin eveni- 
mente poate exploata paralelismul neregulat sau independent caracteristice 
multor algoritmi.: 

Deși un sistem unic RPA transputer poate fi considerat ca un masiv 
SIMD convenţional, fiecare PE poate, conform unor condiții determinate 
local, memora sau genera o parte sau tot cuvintul de control necesar 
operaţiilor ulterioare. Această modificare adaptivă a modului de control 
SIMD permite fiecărui PE să exercite o oarecare autonomie de acțiune. 
Cele mai multe calculatoare SIMD asigură la nivelul procesorului un con- 
trol minimal, redus de obicei la un comutator dependent de date an/off. 
Această structură menţine avantajul sincronizării de granulaţie fină, în 
timp ce asigură o adaptabilitate limitată la diverse cerinţe de preluerare 
în masiv. 

Fig. 3.58 prezintă structura de control a unui singur RPA. Se pot 
identifica două bucle de control majore. Prima se află între masiv şi 
microsecvenţiatorul propriu. Ea este cea convenţională ; controlerul furni- 
zează cuvinte de microcontrol şi adrese în masiv (o cale largă pentru date) 
și recepționează din masiv și posibil de la alte dispozitive ale sistemului 
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semnale de condiţii. A doua buclă de control se referă la datele din memoria 
masivului, care poate fi accesată de procese în curs de execuţie pe sistemul 
gazdă. Această buclă permite o sincronizare de granularitate mai mare care 
poate implica evenimente de la alte sisteme transputer /RPA. Folosirea 
acestei bucle implică iniţierea unor acţiuni în masiv de către gazdă, care 


Fig. 3.60 Fotografie a circuitului de test RPA cu un PE şi 
structurile de test suplimentare. Capsula a fost fabricată la 
Universitatea Southampton. 


vor inițializa. datele în memoria masivului ; ulterior aceste date vor fi regă- 
site de către masiv și folosite pentru determinarea acţiunilor ulterioare. 
Unul din obiectivele principale ale sistemului RPA a fost să utilizeze 
această a doua buclă de control în cadrul unui model de programare 
OCCAM, într-un astfel de mod încit programatorul să poată folosi 
concurenţa reală sau virtuală dintr-o aplicajie. Astfel, codul pentru apli- 
cații este portabil pentru diferitele configurații transputer/RPA. 
Alternativele de implementare pentru structura de control RPA în 
OCCAM sint determinate de granularitatea proceselor ce se execută în 
masiv. Trebuie să fie procesele programe complete, ce se execută concurent 
şi comunică probabil cu sistemul gazdă? Sau trebuie să fie considerate ca 
extensii indivizibile ale setului de instrucțiuni al sistemului gazdă? Dis- 
cTiminarea intre aceste două alternative o asigură comunicațiile necesare 
între gazdă şi masiv. Dacă definim un proces de bază în masiv ca o uni- 
tate indivizibilă de calcul, atit timp cit este implicată comunicaţia dintre 
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gazdă şi masiv, astfel că ordinea poate îi modelată de următorul fragment 
OCCAM 

— HOST PERCEPTION OF ARRAY ORDER 

ARRAY !SOMETEHING 


ARRAY. PROCESS 
ARRAY? SOMETHING. ELSE 


atunci orice decizie referitoare la împărţirea controlului între gazdă și 
controlerul masivului este de fapt o decizie dacă construcţiile ce definesc 
procesele de bază din masiv pot fi determinate de controlerul masivului 
sau de către transputerul gazdă. 

Dacă controlerul masivului defineşte secvențele formate din aceste 
procese, mergînd pînă la programe complete (procese) ce se execută pe 
masiv, atunci pentru operarea concurentă a sistemului gazdă şi masivului 
trebuie să existe comunicaţii intre aceste două componente pentru asigura- 
rea, evenimentelor necesare sincronizării. În OCCAM se poate defini acest 
mod de lucru concurent : 


PAR 
SFQ-— —HOSTPROCESS. 
ARRAY ISOMETHING 
HOST, PROCESS.1 
ARRAY 7SOMETHING.ELSE + 
HOST.PROCESS.2 


SEQ-— —ARRAY PROCESS 
ARRAY 7SOMETHING 
ARRAY.PROCESS.1 
ARRAY !SOMETHING.ELSE 
ARRA Y.PROCESS.2 


În acest exemplu sistemul gazdă iniţiază operarea masivului şi, apoi, 
își continuă lucrul. La un moment ulterior de timp cele două procese se 
sineronizează printr-o operaţie de comunicaţie inițiată de masiv și, apoi, 
ambele își continuă luerul, probabil moditicind acţiunile pe care le execută 
în urma operației de comunicaţie întreprinsă. Acest: mod de control acceptă 
operaţii de comunicaţie pentru sincronizare inițiate fie de gazdă, fie de masiv. 

Dacă dorim suprapunerea calculelor cu operaţia de comunicaţie, 
astfel ca sincronizarea să nu scadă eficienţa, atunci modelul trebuie modi- 
ficat pentru a permite atit gazdei cît şi masivului să execute în paralel 
procesele respective. Ilustrarea o oferă exemplul de mai jos, unde operaţiile 
de comunicaţie pentru sincronizare nu sint vizibile : 


PAR 
PAR—— HOST PROCESS 
HOST, PROCESS.1 
HOST.PROCESS.2 
PAR—— ARRAY PROCESS 
ARRAY.PROCESS.1 
ARRAY.PROCESS.2 
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Implementarea acestui model presupune un secvenţiator pentru 
masiv care să poată controla procese multiple, concurente. Acesta ar 
trebui să fie întreruptibil, astfel ca un proces care solicită efectuarea 
unei operaţii de comunicaţie cu sistemul gazdă să poată fi suspendat în 
timp ce are loc această operaţie şi să continue, după terminarea ei. Over- 
Lead-urile asociate comutării pro- 
«eselor sînt mari, iar microcon- 
trolerul necesar complex. De aceea, 
am optat la RPA pentru alterna- 
tiva ordonării indivizibile. 

Această soluţie exclude sin- 
cronizarea între procesele în exe- 
cuţie pe sistemul gazdă și masiv, 
exceptind inițierea şi terminarea 
proceselor executate de masiv. 
Există un număr de avantaje. 
Deoarece în interiorul unui proces 
executat pe masiv nu este nece- 
sară sincronizarea, nici ordinea nu 
trebuie suspendată. Microrutinele 
se pot executa pină la încheiere 
prin folosirea. unui microsecren- 
țiator simplu. Este dezirabil un 
mecanism care să permită exe- 
cuţia pe masiv a proceselor con- La/deia 

AE lana sistem 
curente, deoarece atit înainte de, gazdă [acte acd 
si di după mieroratină poale Fig. 3.61. Structura unităţii de control de la 
exista comunicatie, care este de RPA. 
dorit să se suprapună cu opera- 
ţiile de calcul. Acest paralelism poate fi, totuşi, implementat cu o 
coadă de aşteptare pentru procese active; un secvenţiator întreruptibil 
va avea nevoie de cel puţin două cozi de așteptare, pentru procesele 
active, și cele suspendate, cu mecanismul aferent pentru suspendarea și 
activarea proceselor necesare sincronizării. 


Fig. 3.61 furnizează o imagine mai detaliată a sistemului de control 
de la transputer, care conţine o singură coadă de aşteptare pentru procese 
multiport, prin intermediul căreia comunică transputerul și microcontrole- 
rul. În cadrul acestei implementări, rutineie microprogramate de pe masiv 
iormează procese care pot fi considerate extensii indivizibile la setul de 
instrucţiuni al calculatorului gazdă, și care corespund limbajului OCCAM, 
Constructorii PAR și SEQ, procesele de pe masiv şi gazdă pot îi acum 
amestecate cu operaţiile de comunicaţie (care nu apar în exemplul de mai 
jos) asigurind evenimente de sincronizare şi operaţiile de control, cînd 
este necesar. 


Masiv RPA PE 


Micro- 
secventiator 


Memor'e 
cortrc; 
cu Scriv'e 


Port cu 2 intrări 
memorie 
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— — HOST/ARRAY PROCESS 
SEQ 


PAR 
HOST.PROCESS.1 
SEQ 
ARRAY.PROCESS.1 
ARRAY?SOMETHING 
PAR 
HOST.PROCESS.2 
IF 
SOMETHING= G00D 
ARRA Y.PROCESS.2 
TRUE 
ARRAY.PROCESS.2 


Cu acest sistem, o secvenţă de procese ce se execută pe masiv şi care 
nu au nevoie de operaţii de comunicaţie pentru sincronizare pot fi buferi- 
zate în controlerul masivului, controlul trecînd de la unul la următorul 
fără. interacţiune cu sistemul gazdă. Ele sînt adăugate cozii de aşteptare 
a proceselor din controlerul masivului și apoi executate în secvenţă. În 
acelaşi mod se pot executa şi procesele paralele. 

La proiectarea sistemului de calcul RPA s-a implementat la nivelul 
inferior un volum considerabil de soft, dezvoltat prin folosirea unui sistem 
ce simulează RPA (Jesshope şi Stewart 1986). Se simulează un masiv 32 x 
32 şi un controler, implementa î în imaginea binară a microcodului. Se folo- 
seşte echipamentul grafic de la o staţie de lucru ICL Perg. În fig. 3.62 este 
ilustrat menu-ul folosit. Interactiv, se furnizează date, se stabileşte configu- 
raţia, se editează microcodul şi se simulează complet masivul și controle- 
rul, cu vizualizarea grafică a tuturor stărilor interne și a magistralelor, ¢ cmd 
este necesar pentru depanare. 

RPA ca stație de lucru ce folosește transputere cu un masiv 32 x32, 
va asigura între 20 şi 100 Milop/s pentru operaţii cu numere pe 32 biţi în 
virgulă mobilă, la o frecvență a ceasului de 10 MHz. Deoarece operaţiile 
aritmetice se execută serial, performanța maximă va depinde de precizia 
datelor. De exemplu, adunarea a 32 x 32 întregi pe 32 biţi se va executa 
cu viteza de 200 Mflop/s, în timp ce adunarea întregilor pe 8 biţi se va 
executa cu o viteză de patru ori mai mare, ceea ce înseamnă aproape o 
mie de milioane de operaţii pe secundă (1 Gop/s). Operaţiile logice se 
pot executa cu rata de 20 Gop/s. 

Tab. 3.11 prezintă exemple de valori de performanţă furnizate de 
simulator. Singura presupunere se referă la perioada ceasului de 100 ns, 
justificată. de simularea electrică a circuitului testat. 


(iv) Configurarea structurilor de date 


Masivul RPA poate fi considerat ca un masiv foarte flexibil de unităţi 
de calcul la care, odată cu creșterea dimensiunii masivului, numărul 
biţilor unităţilor de calcul scade. Fig. 3.57 ilustrează acest concept. Trebuie 
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Fig, 3.62 Sistemul de dezvoltare a microcodului RPA, cu menu-ul aferent 


observat că masivele dreptunghiulare, ca şi cele pătratice, pot fi distribuite 
direct. De asemenea, este posibilă configurarea unor masive multidimensio- 
nale pe RPA, iar dacă numărul elementelor de la margini sînt. puteri ale 
lui 2, orice reorganizare a datelor activate poate fi codificată eficient. 
Fig. 3.63 prezintă operaţiile de deplasare necesare pentru comunicațiile 
din interiorul unităţilor de calcul pe 8 biţi. Se folosese biții de reconfigu- 
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Tabelul '2.11 Estimări ale performanţei la RPA în cazul a 1024 operaţii. (Toate cifrele reprezintă 
milioane de operaţii pe secundă), Operaţiile în virgulă mobilă respectă standardul IEFE. Operaţiile 
în virgulă mobilă în iormat IBM stat mult mai rapide. 


Operaţie Performanţa 
f] 

adunare de întregi pe 8 biți 930 
adunare de întregi pe 16 biți 465 
adunare de întregi pe 32 biți 233 
înmulțire între intregi pe 8 biți 128 
înmulţire între întregi pe 32 biţi 16 
adunare în virgulă mobilă pe 32 biţi 18 
înmulțire în virgulă mobilă pe 32 biţi 6 
înpărțţire în virgulă mobilă pe 32 biți 6 
maxim pe 32 biţi 790 
operații cu şiruri 500 — 1000 


rare pentru asigurarea marginilor pentru operaţiile de deplasare, ca şi a 
celor de deplasare pe distanţe mari. Registrele de direcţie asigură posibili- 
tatea de a executa deplasări nelaminare. Structurile de date mai complexe, 
ca şi rotaţiile, pot exploata teoria biţilor muzicali (musical bits — Flanders 
1982). 

Se poate arăta că, pentru deplasări de tipul vecinătăţii proxime între 
unităţile procesoare, deşi lărgimea de bandă a comunicaţiilor locale scade 
cu aproximativ rădăcina pătrată a numărului de procesoare, lărgimea de 
bandă a comunicaţiilor globale rămîne constantă pentru orice configuraţie. 
Într-adevăr, lărgimea, de bandă a comunicațiilor pentru structuri de date 
mai puțin regulate sau în cazul unor deplasări de date mai complexe poate 
fi mult îmbunătăţită faţă de implementarea soft prin program necesară 
în cazul unui masiv ne-adaptiv. La o implementare software, poate fi 
necesară o cantitate mare de repetiţii pentru obţinerea deplasărilor în di- 
recţii multiple, prin mascări şi deplasări alternative. Prin configurarea 
rețelei de comutare la RPA se realizează concurent diferitele direcţii de 
deplasare. Mai mult, stivele pot fi folosite condițional, pentru memorarea 
datelor cu structuri neregulate, stivele altor unităţi procesoare rămînind 
nefolosite. 

Fig. 3.63 prezintă codurile necesare în cîmpurile de control local pen- 
tru implementarea unor configurații regulate care, împreună, dau o idee 
despre puterea şi flexibilitatea acestei structuri de masiv adaptiv. Cele trei 
cimpuri de configuraţie apar la fiecare element procesor. în fig. 3.63 (a) 
la (c). Acestea sînt codificate cu chei şi corespund stării configurației me- 
morată de fiecare PE. 

Fig. 3.63(a) prezintă configuraţia pentru două procesoare pe 8 biţi. 
Observăm că acestea sînt bucle închise şi execută deci gama completă de 
operaţii orientate pe „,bait”. E 

Pentru efectuarea înmulţirii, este posibil să se contigureze procesoarele 
din fig. 3.63(a) pentru emisia unui bit tuturor biţilor unui procesor dat, 
simultan la fiecare procesor. Această configuraţie (fig. 3.63(b)) prezintă 
avantajul unei structuri de magistrală paralelă, unde se pot executa emisii 
multiple. 


288 


cel mal semnificativ bit 


CA sf Fig. 3.63 Folosirea cimpurilor de control local pentru 
con gurejie organizarea structurilor de date în vederea prelucrării 
LS= bitul cel mai putin pe RPA; cheia codifică semnificația cimpurilor de 
semnificativ control. (a) Două microprocesoare pe 8 biți, configu- 
rate din cicluri invecinate de PE (observăm că biții 


ra B A a magistro MS şi LS sint adiacenți, ceea ce permite efectuarea 
Cheie:Un element de prelucrare RPA eficientă a operațiilor de deplasare, ca și transferul tran- 
sportului). (b) Aceleaşi două microprocesoare, cu co- 
nexiunile necesare creerii unei magistrale locle, pentru 
operații de emisie de la bitul cel mai puțin semnificativ. 


ELE) 


a 
[i 


ey zise a 
Ea pa Fig. 3.63 cont. (c) Organizarea unci 


Fig. 3.63 (c) prezintă modul cum poate fi folo- 
sit masivul pentru configurarea unui arbore binar 
de procesoare pe 1 bit, la RPA.:În acest caz se 
folosesc 50% din PE, 25% nu sînt folosite deloc 
şi celelalte 25% sint folosite pentru configurarea 
magistralei, transmiţind intrările la ieșiri, deci 
asigura comunicații la distanță mare cînd este 
cazul. Š 

Structurile mai puțin regulate pot fi distri- 
buite pe masiy prin implementarea unei structuri 
de comunicații bazată pe pachete, ce foloseşte 
rețeaŭa de comunicații fizică ce are topologia veci- 
nătăţii proxime, folosind un nivel de microcod. 
O astfel de implementare a fost programată la 
EPA, iar rezultatele execuției unui ciclu al acestui 
algoritm sînt ilustrate în fig. 3.64. S-au imple- 
mentat pachete de 32 biți, cu două cîmpuri de 
adrese absolute pentru elementul procesor, x şi y. 
Cu această schemă se poate buferiza într-o capsulă 
RAM un singur pachet, dar sînt posibile transmisii 
şi recepții simultane de pachete, în absența coli- 
ziunilor. Cu posibilitatea de reducere globală im- 
plementată în masivul RPA, este posibil să. se 
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detecteze deterministic o coliziune potenţială în cîțiva micro-cicli și să se 
buferizeze pachetele în memoria RAM externă. 

Lărgimea totală de bandă a circuitelor de comutare de la RPA este 
de 2 biţi la intrarea şi 2 biţi la ieşirea fiecărui PE în fiecare micro-ciclu, 
un total de 4x10! biţi/s, aproximativ echivalent cu CM-1 (vezi $3.5.3), 
deşi această mașină este de 64 ori mai mare. În modul de comutare al pa- 
chetelor, sînt necesari între 100 şi 200 micro-cieli pentru trimiterea a 32 
biţi printr-un PE, mai aproape de destinaţie, rezultind un total de între 3 
şi 6x10? biţi/s pentru întregul masiv. Astfel flexibilitatea comunicaţie 
conduce la scăderea lărgimii de bandă cu un ordin de mărime; totuși, 
“lărgimea de bandă statică este mare, mult mai eficientă în comparaţie cu 
o implementare pe un masiv neadaptiv. Acest sistem permite implementa- 
rea, structurilor de date neregulate și dinamice. 


3.5.5. Transputere și sisteme înrudite 


'Transputerul (INMOS 1985) este prezentat în fig. 3.65 ; este un micro- 
procesor pe o capsulă produs de compania INMOS Ltd. Se distinge de 
alte microprocesoare prin aceea că a fost proiectat special ca element; 
de bază pentru procesoarele paralele. De aceea, posedă în interiorul circuitu- 
lui VLSI memorie şi linii de comunicaţie pentru comunicarea cu alte trans- 
putere. De aceea, poate fi considerat ca o familie de componente VESE 
programabile care pot implementa conceptul de calcul concurent. 


INMOS a implementat, în cazul transputerului, atit de multe compo- 
nente ale unui calculator tradițional von Neumann, cît s-a putut pe o 
capsulă de 1 cm?, asigurind în acelaşi timp mecanismele necesare pentru 
calculul concurent sau bazat pe conceptul de proces. Într-o oarecare mă- 
sură, este vorba de a optimiza tehnologia CMOS folosită (vezi $6.1), 
deoarece comunicațiile între dispozitivele VLSI au o lărgime de bandă mult 
mai mică decît cea dintre sub-sistemele din interiorul capsulei. La o capsulă 
VLSI, pinii sînt scumpi şi relativ lenți. Mecanismele pentru facilitarea con- 
curenţei includ hardware pentru o coadă de așteptare pentru procese, 
cu registre speciale şi instrucţiuni microprogramate care permit crearea 
task-urilor paralele ; un context minimal pentru fiecare proces activ astfel 
ca comutarea proceselor să fie foarte rapidă ; timere hardware ; și un sem- 
nal extern de întreruperi. ` 

Partea de execuție a transputerului este reprezentată de un calculator 
RISC (cu set redus de instrucțiuni — reduced instructions set computer), 
care are o viteză mare de execuție (20 MHz) pentru un număr redus de 
instrucțiuni şi moduri de adresare. Procesorul ocupă aproximativ 25% 
din suprafaţă. Alt procent de 25—30% este ocupat de cei 2 KB (T414) 
de memorie statică, iar legăturile de comunicaţie transputer-transputer 
ocupă încă 25%. Suprafaţa rămasă este folosită. de circuitele: de nter- 
faţare pentru sistemul extern de memorie. a 
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Fig. 3.65 Fotografia circuitului transputerului T800. Cap- 
sula conţine 4 KB memorie RAM (zona întinsă din stin- 
ga jos) ; controlerele legăturilor INMOS şi ale intrării de în- 
„trerupere (dreapta jos); o cale de date pe 32 biți şi ROM 
(în mijloc, spre dreapta); şi unitatea de calcul în virgulă 
mobilă și ROM (in partea superioară). Flecare din aceste 
blocuri ocupă aproximativ 20% din suprafață; cei 20% 
care rămin reprezintă spaţiul pentru interfața cu memo- 
ria şi controlerele externe. (Fotografie pusă la dispoziţie 
de INMOS Ltd.) 


Produsele transputer comercializate includ un procesor pe 32 biţi 
cu o magistrală de adrese/date pe 32 biţi multiplexată, (T414), un procesor 
pe 16 biţi (T212) şi un circuit controler de disc, cu magistrale de date şi 
adrese pe 16 biţi și interfață specializată standard. În perioada serierii 
lucrării de faţă, INMOS testa T800, versiunea în virgulă mobilă a trans- 
puterului, care posedă în interiorul capsulei o unitate hardware în virgulă 
mobilă alături de celelalte componente ale lui T414. Folosirea unei teh- 
nologii RAM mult mai dense a permis implementarea la T800 a unei memorii 
de 4 KB. 

La toate produsele, se pot folosi frecvențe diverse, intern pînă la 
20 MHz, deşi documentaţia INMOS precizează că o parte a circuitului 
T800 lucrează la 30 MHz. O caracteristică unică a transputerului este că 
frecvența externă de ceas este pentru toate componentele de 5 MHz. Astfel, 
se simplifică proiectarea sistemelor, deoarece freevența este. relativ scă- 
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zută. Transputerul comunică asincron, deci poate fi combinat cu orice pro- 
cesor care foloseşte un ceas propriu. Ao i $ 

Componentele interne transputerului lucrează concurent ; fiecare din 
cele 4 legături şi co-procesorul în virgulă mobilă pot efectua operații utile 
în timp ce procesorul execută alte instrucțiuni. Fiecare linie de comunicație 
are un canal DMA în sistemul de memorie care va reduce, totuşi un sem- 
nificativ, lărgimea de bandă la procesor. 


Fig. 3.66 O serie de plăci cu -transputere . 
- care conţin (a), 1, (b)16şi (c) 42 transpnte- 
Aa re. (Fotografi furnizate de INMOS Ltd.) 


Fig. 3.66 ilustrează, puterea, transputerului T800, prin, citeva plăci 
cu transputere. Fig. 3.66 (a) prezintă o placă cu un sistem cu un transpu- 
ter şi 2 MB, care atinge 1—2 Milop/s, fig. 3.66 (b) o placă cu 16 transpu- 
tere, o componentă, eare realizează 16—32 Milop/s, iar fig. 3.66(c) o placă 
cu 48 transpulere care atinge 42—84 Milop/s! Toate plăcile au formatul 
dublu eurocard extins. Desigur, într-un caz puterea de calcul este redusă în 
favoarea memoriei, dar se poate vedea că există un mare interes pentra 
vealizarea, unor modele cu o viteză de calcul mare, care utilizează un spaţiu 
mic ĝe memorie RAM, de exemplu pentru unităţi pipeline. Cu actuala rată 
de creștere a densităţii de integrare, nu va fi surprinzător să vedem elimina- 
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rea capsulelor RAM în favoarea unor dispozitive procesor-memorie, al 
căror emisar este transputerul. Atingerea a 4 Milop/s și 64 KB pe o singură 
capsulă în 1990 nu va fi o realizare surprinzătoare. 


(i) Arhitectura procesorului 

Sistemele cu tiansputer execută programe scrise în limbajul de pro- 
gramare OCCAM (vezi $4.4.2), care permite descrierea concurenţei între 
transputerele din siştem sau în cazul unui singur transputer. De aceea, 
transputerul trebuie să conţină scheme care să faciliteze concurența. Un 


proces executat pe transputer este descris cu 6 registre (vezi fig. 3.67). 
Cele 6 registre sint : 


(a) o stivă pentru trei operanzi (A, B şi O în fig. 3.67); 


(b) an indicator (pointer) al spaţiului de lucru care indică zona de me- 
morie ce păstrează variabilele locale ale proceselor ; 


(e) un indicator pentru adresa următoarei instrucţiuni executate de 
proces şi 


(d) un registau operand, folosit pentru fârmarea valorilor literale sau 


a operanzilor. 
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Stiva este folosită în manieră convenţională, operaţiile făcînd referin- 
ţele implicit la locaţiile din virf. Toate instrucţiunile au un format fix și 
compact, care respectă principiile arhitecturii RISC, dar care în acelaşi 
timp permite extinderea setului de instrucţiuni în cadrul aceluiaşi format 


7 43 9 


Fig. 3.68 Formatul instruc- 
țiunii la transputer şi regis- 
trul operand. 


egistru operand 


de instrucţiune. De asemenea, se obţine independenţa faţă de lungimea 
cuvîntului procesor. Formatul prezentat în fig. 3.68 conţine 4 biţi pentru 
op-cod și o dată reprezentată pe 4 biţi, care poate fi folosită fie ca operand, 
fie ca adresă. l 

„Instrucţiunile codificate cu cei 4 biți includ: 

încărcare constantă ; 

adunare constantă ; 

încărcare locală ; 

memorare locală ; 

încăreare pointer local ; 

încărcare externă; 

memorare externă ; A oi 

salt ; 

salt condiţionat ; 

apel. 

Aceste instrucțiuni pot folosi constanta pe 4 biţi conținută în cimpul 
de dată ca valoare literală între 0 şi 15, sau ca adresă relativă față de in- 
dicatorul spaţiului de lucru pentru referințe locale, adică ca offset cu valoa- 
rea între 0 şi 15. Referințele externe furnizează un deplasament relativ la 
virful stivei, sau registrul A. Pentru literale cu valori mai mari, două 
instrucţiuni suplimentare asigură abilitatea de formare a unor date pe 
baza unor secvenţe de astfel de instrucţiuni pe bait. Toate instrucţiunile își 
încep execuţia prin încărcarea datei pe 4 biţi în registrul operand care va 
fi apoi șters la încheierea, execuţiei funcţiilor respective. Există, în plus, 
instrucțiuni care încarcă acest registru și deplasează rezultatul la stinga 
cu 4 poziţii, cu alte cuvinte realizează un produs cu 16. Aceste instrucţiuni 
nu şterg registrul operand după execuţie. Două instrucţiuni — prefix și 
prefix negativ — permit obţinerea în registrul operand a valorilor pozitive 
sau în complement faţă de 2, pe lungimea cuvîntului procesorului. 

Această dată poate fi folosită ea operand de către instrucţiunile di- 
recte de mai sus. Statistici efectuate în cadrul analizelor codului generat 
de compilator indică faptul că instrucţiunile directe conţin operaţiile şi 
modurile de adresare cele mai des folosite. Mai mult, aceste rezultate arată, 
că cele mai folosite valori literale sînt constante întregi cu valori mici. 
De aceea, setul simplu de instrucţiuni permite execuţia foarte rapidă a 
celor mai folosite dintre ele. Oricum, subiectul nu este epuizat, deoarece 
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chiar şi susținătorii cei mai înflăcăraţi ai concepiului RISC au nevoie de 
mai multe instrucţiuni ; procesoarele RISC obișnuite au între 64 şi 128 
instrucţiuni. C n 

Instrucţiunea de operare (operate) permite interpretarea registrului 
operand ca un op-cod, realizind astfel cu un octet, încă 16 instrucţiuni 
care lucrează cu stiva. Mai mult, instrucţiunea prefix poate fi folosită pentru 
extinderea domeniului funcţiilor posibile. În mod obişnuit, se pot codifica 
toate instrucţiunile cu un singur prefix de registru operand. Cele mai folo- 
site operaţii indirecte sint codificate de tetrada inferioară. a primului bait. 
Ca exemplu, înmulțirea virtului stivei cu un operand pe 16 biţi s-ar executa 
cu următoarea secvenţă de program : 

prefix — cei mai semnificativi 4 biţi | 

prefix — următorii cei mai puţin semnificativi 4 biţi 

prefix — ultimii biţi prefix i 

încărcare constantă — conține ultimii 4 biți 

prefix — funcție indirectă 

operează — decodifică registrul operand odată 

Această secvență consumă 4 cicli pentru încărcarea operandului gi 
40 pentru execuţia înmulţirii, ceea ce nu este un overbead prea mare 
în raport cu simplitatea execuției. Dacă frecvența ceasului este mate, 
datorită simplităţii Qecodificării, atunci beneficiile oferite de soluţia trans- 
puterului sînt confirmate. De asemenea, secvența este compactă necesitind 
numai 6 baiţi (doi cicli de magistrală pentru încărcarea instrucţiunii). 


(îi) Mecanismele care implementează conceptul de calcul concurent 

'Transputerul acceptă cohcurența în gradul cel mai înalt. Posedă un 
planifieator micro-programat, care permite ca oricît de multe procese să 
concureze pentru timpul procesorului, singurele limite intervenind la acce- 
sul memoriei. Procesele se află în două cozi de așteptare. Una este pentru 
procesele active, în curs de execuţie sau care aşteaptă lansarea în execuţie. 


Registre Local Program 


Fig 3.69 Înlănțuirea proceselor în 
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Coada proceselor inactive păstrează acele procese care aşteaptă finaliza- 
rea unor operaţii de intrare, ieşire sau o întrerupere. Planificatorul nu tre- 
buie să consulte aceste dispozitive, deci nu consumă cicli procesor pentru 
procesele inactive. Fig. 3.69 ilustrează legăturile specifice unei cozi pen- 
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tru procese, în acest caz pentru procese active. Două registre memorează. 
începutul și sfîrşitul listei, în timp ce procesul în curs de execuţie are pro- 
priul indicator al spaţiului de lucru și numărător de program încărcat în 


„registrele procesorului. Toate celelalte procese păstrează aceste informaţii 


în spaţiul de lucru. 

Timpii necesari comutării proceselor sînt foarte mici, de ordinul 
microsecundelor, funcţie de instrucțiunea ce se execută. Motivul este fap- 
tul că se salvează puţine informaţii de stare. Stiva de evaluare nu trebuie 
salvată, iar cînd procesul curent nu mai poate continua, numărătorul de 
program și indicatorul spațiului de lucru sînt salvaţi în spaţiul de lucru, 
următorul proces îiind preluat din lista activă, 

Două microinstrucţiuni asigură mijloacele pentru adăugarea sau şter- 
gerea proceselor în coada de așteptare a proceselor active. Acestea sint 
start proces şi end proces. O instrucţiune start proces este necesară pentru 


“fiecare componentă a constructorului PAR din OCOAM (vezi $4.4.2), iar 


încheierea corectă a procesului se asigură prin execuţia instrucţiunii end 
proces care, atunci cînd se execută, decrementează un numărător. Numai 
cînd fiecare componentă a constructorului PAR s-a încheiat, va îi ajuns 
numărătorul la zero, ceea ce semnifică sfirşitul corect şi continuarea pro- 


“cesului în care a intervenit acest constructor. 


F 


(îii) Legătura IMNOS E 

Comunicaţiile între procesele de pe un transputer sau între procese 
de pe diferite transputere se execută cu două instrucţiuni input mesaj 
şi output mesaj. Comunicaţia este de tipul punct la punct, nebuferizată, 
Deci, este necesar un protocol handshake între procese, pentru sineroni- 
zare. Aceleaşi instrucţiuni sînt folosite pentru transmiterea mesajelor între 
procese ce se execută pe acelaşi transputer sau pe transputere diferite, 
Instrucţiunile folosesc adresa. canalului pentru a determina forma co- 
municației necesare. a 

Canalele interne sînt reprezentate de un cuvint în memorie, suficient 
pentri protocolul handshake stabilit între procesele care comunică. Cana- 
lul posedă fie o valoare specială liber” (empty), sau identitatea unui pro- 
ces. Un canal este inițializat la valoarea liber, iar cînd un proces este gata 
să scrie sau să citească, identitatea sa este memorată în locația canalului ; 
apoi, acest proces este scos din coada de așteptare a proceselor active. 
Cînd și al doilea proces poate participa la comunicaţie, va găsi identitatea, 
primului în locaţia de canal, mesajul va fi copiat, după care procesul care 
așteaptă este adăugat la lista proceselor active. Mesajul este definit de un 
număr, o locaţie de canal şi un indicator la mesaj. Fig. 3.10 prezintă sche- 
matic secvenţa enunțată anterior. i 

Canalele externe funcţionează într-o manieră similară, cu diferența 


- că interfaţa execută copierea mesajului prin intermediul liniei de legătură. 


Fiecare legătură implementează două canale. OCCAM în direcţii opuse, 
cu trei fire care propagă semnale de nivele TTL. Comunicaţiile pe aceste 
legături sînt conduse de controlere autonome, care au acces DMA la 
memoria transputerului. Prin urmare, în timp ce transputerul execută 
instrucțiuni, se pot executa simultan 4 comunicaţii bidireeționale. Fiecare 
controler pentru legătura de comunicaţie are trei registre, care păstrează 
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un indicator la zona de lucru a unui proces, un indicator la mesaj şi un 
număr pe 8 biţi pentru lungimea mesajului, folosit la controlul transferu- 
lui. Singura, diferenţă în operare este că la comunicațiile externe, ambele 
procese trebuie scoase din lista proceselor active pe durata cît are loc 
comunicaţia. 

Modul de lucru şi performanţa legăturii de comunicaţie INMOS sint 
fundamentale pentru exploatarea efectivă a transputerului. Toate pro- 
duzele transputer pot executa comunicații. cu vitezele de 5, 10 şi 20 Mb/s. 
Deşi transferul este autonom, atit timp cit mesajele transmise au o lungime 
rezonabilă, o suprapunere totală nu va fi posibilă, deoarece fiecare transfer 
va consuma o cantitate finită din timpul procesorului pentru scoaterea 
procesului din coada de aşteptare şi iniţializarea, registrelor controlerului. 
Dacă se măsoară lărgimea de bandă a legăturii de comunicaţie ca funcție 
de lungime mesajului, se poate folosi modelul pipeline clasic cu un timp 
de iniţializare fără transmisie, urmat de o funcționare constantă, Prin 
urmare, granularitatea mesajului modifică lărgimea de bandă. Trebuie să 
ne reamintim că perioada de inițializare degradează de asemenea per- 
formanța procesului, în așa măsură că multe transferuri de mesaje de lun- 
gime mică pot satura procesorul, i 

Fig. 3.71 prezintă dependența timpului necesar transmisiei unui mesaj 
de o lungime dată la un transputer cu legătura de comunicație funcţionind 
la 10 MHz, și ceasul procesorului la 12,5 MHz, ca la T414. Rata de transfer 


PA at 6 9-9 2 5 una 2 
Lungimea mesajului | bytes) 


Fig. 3.71 Timpul necesar comunicării pe o legătură INMOS func- 
ție de lungimea mesajului,; pentru un transputer T414 rev. A 


maximă sau asimptotică este de aprozimativ 0,5 MB/s, ce poate îi reali- 
zată în ambele direcţii. Se mai determină lungimea, mesajului pentru care 
se obţine jumătatea performanţei, de aproape un bait. Aceşti parametri 
vor fi diferiți pentru procesoare diferite și legături care folosesc alte viteze 
de transmisie, timpul de inițializare fiind proporţional cu ceasul procesoru- 
lui, iar lărgimea, de bandă asimptotică, la un prim ordin, proporţională cu 
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viteza de transmisie. Astfel, pentru cel mai bun T414 (procesor de 20 MHz 
şi legătura de 20 MHz), se va observa o lărgime de bandă asimptotică de 
1 MB/s, și o lungime a mesajului de un bait pentru jumătate din lărgimea 
de bandă. 

Protocolul folosește un pachet de 11 biţi, cu un bit de start, un bit 
pentru diferenţiere între date și pachete de achitare, 8 biţi de date ṣi un 
bit de stop. Pachetul de achitare (acknowledge) are 2 biţi , un bit de start 
şi unul de stop. Protocolul permite acceptarea unui bait de date de către 
transputerul receptor, la primirea celui de-al doilea, bit (cel care face dis- 
tincţia). În acest mod sepot realiza transmisii continue de pachete de date, 
în condiţiile în care timpul de propagare a semnalului este mic în comparaţie 
cu timpul de transmisie a pachetului. l 

Această pre-acceptare a pachetului de date nu este implementată la 
transputerele T414 curente, unde nu se va trimite un pachet de achitare 
pînă ce nu s-a recepționat pachetul complet de date. Acest protocol este 
implementat la T800, ceea ce permite atingerea unei rate de transfer 
teoretice maxime de 2 MB/s pe legătură gi direcție. Această lärgime de 
bandă poate fi degradată în cazul traficului bi-direcțional, datorită inter- 
calării pachetelor de achitare cu cele de date. 


(iv) Performanța 

Performanța transputerului este dependentă de un număr de factori, 
de exemplu frecvenţa ceasului care poate varia între 12,5 şi 20 MHz. De 
asemenea, dacă datele provin din memoria RAM externă, timpii de acces 
vor depinde de viteza memoriei şi, pentru cele mai multe operaţii, acesta 
este un factor major în cadrul vitezei de lucru. În cazul cel mai bun, inter- 
faţa memoriei externe va avea un ciclu de trei ori mai mare ca al trans- 
puterului (150 ns pentru procesorul de 20 MHz). Pe de altă parte, memoria 
internă necesită un singur ciclu procesor. Este clar, prin urmare, că dacă 
datele se află în memoria internă se vor obţine câştiguri de viteză. Manualul 
de referință al transputerului prezintă o evaluare a ciclilor necesari pentru 
execuţia diferitelor construcţii OCCAM. Am executat o serie de programe 
de test pe un sistem cu un transputer T414 rev A, cu frecvența internă a 
ceasului de 12,5 MHz. Rezultatele obţinute sint prezentate în tab. 3.12. 


Tabelul 3.12 Valori de perlormanţă pentru transputerul T 414 rev A (12,5 MHz). Valorile sînt în 
milioane de operaţii pe secundă pentru operanzi din memoria internă sau externă. 


Performanța 

Operația j A zi 

Memorie internă Memorie externă 
Adunare cu întregi : 1,78 0,23 
Înmulțire cu întregi 0,33 0,14 
Împărțire cu întregi 0,27 0,13 
Adunare în virgulă mobilă ` 0,03 0,017 
Înmulțire în virgulă mobilă 0,03 0,018 
Împărțire în virgulă mobilă - 0,03 0,016 
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Cind programatorul foloseşte limbajul OCCAM, este încurajat să 
exprime paralelismul, chiar dacă fragmentul de cod este executat pe un 
singur transputer. Se va încuraja acest stil de programare, în condiţiile 
în care se pot crea procese paralele fără un overhead excesiv. INMOS 
subliniază că acest overhead este la transputer mai mare ca un apel de 
funcție dintr-un limbaj secvențial. Pentru a testa acest lucru, am executat 
codul care urmează pe un iransputer (12,5 MHz). 

VAR be 
Dra a 


das 
PAR [j=0 FOR m] 
VAR a 
SEQ [i=0 FOR n] 
a:=b*e 
S-a executat acest cod cu valori diferite ale lui m şi n, produsul lor 
menţinindu-se constant, m*n = 1024. S-a folosit memorie internă şi 
i externă, rezultatele . fiind 
trasate în fig. 3.72. Folosind 
memoria externă, este evident 
că overhead-urilè implicate 
de crearea proceselor - nu 
devin semnificative pină cind 
128 procese paralele execută 
1024 înmulţiri cu întregi; 
iar în cazul memoriei interne, 
cînd 256 procese paralele 
execută 1024 operaţii, Aceste 
cifre corespund la 8, res- 
pectiv 4 operaţii pentru 
fiecare proces. ` 
Prin urmare, overhead- 
urile pentru crearea proce- 
selor paralele sint mici. Aceste 
ri cifre prezintă şi avantajele 
"i programării transputerului 
S astfel încît şi programele şi 
d datele să se afle în memoria, 
2i $ n internă. Dacă se foloseşte 
transputerul în acest mod, 
este probabil că programul va 
fi distribuit mai multor trans- 
putere. Acesta este denumit 
paralelism algoritmic, iar 
E De 0. a a0 tehnica este ilustrată ìn 
in ÎNamăr de procese paralela < $4.5.2. În această situaţie, 
Fig. 3.72 Efectul paralelismului asupra unui singur tran- datele se vor obţine pra 
sputer T 414rev. A. Înacest experiment s-au executat intermediul legăturilor de co- 


1024 înmulţiri cu intregi, folosind un număr de task-uri i ie î 
paralele. (a) Datele și programul in memoria externă. (b) municaţie între traneputere, 
+ „__ Datele şi programul ine memoria internă. Am executat programul de 
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iransputere interconectate pentru a simula efectul dimensiunii pache- 
telor asupra timpilor de operare. Codul OCCAM a constat dintr-o 
secvenţă de înmulţiri între întregi aflaţi în. memoria internă, ambele 
seturi de operanzi fiind primite de la două canale OCCAM externe, iar 


[ei 
r 


a chete de cuvinte alg cuwnie — că 

că | Pachete d 3. ee 
E i 10 culte E 

Er ee e 


(nici o comunicare! 


EET 20 
Operații secvențiale 


Fig. 3.73 Efectul comunicaţihor asupra operaţiilor transputeru- 

lui. Operanzii și rezultatele pe legăturile INMOS. Fiecare linie 

prezintă rezultatul pentru o dimensiune a pachetului. Idealul (nici 
o comunicație) este de asemenea reprezentat. 


rezultatele fiind transmise la un canal OCCAM extern. Toate operaţiile 
de I/E au fost buferizate, astfel că operaţiile de comunicaţie să se destă- 
soare în paralel cu execuţia instrucţiunilor de către procesor. Rezultatele 
sint prezentate în fig. 3.13, curbele corespunzind la o dimensiune a pachetu- 
lui, iar timpul depinde de numărul total de operaţii executate; curbele 
sint comparate cu cea ideală, cind datele se află în memoria internă. 

În prezentarea transputerului în virgulă mobilă, INMOS a afirmat că 
partea ce funcţionează la 20 MHz va lucra’ cu mai mult de 1,5 Mflop/s. 
Aceasta înseamnă că va fi un procesor foarte puternic. Aceste afirmaţii 
au fost verificate pe eșantioane la Universitatea Southampton. Dacă 
aplicaţia permite, transputerul poate fi folosit cu foarte puţine circuite 
suplimentare, ceea ce înseamnă că s-ar putea afla pe o placă format IBM 
32 transputere, fără memorie externă. Această placă ar adăuga o cifră 
impresionantă de 50 Mflop/s la un calculator personal. Tab, 3.13 prezintă 
timpii de execuţie pentru operaţii în virgulă mobilă format IEEE la T800, 
publicaţi de INMOS. | 


(v) Construind sisteme cu transpulere 


'Transputerele pot fi folosite în multe aplicaţii şi în diverse moduri, 
acum existind pe piaţă mai multe sisteme bazate pe transputere, inclusiv 
rack-uri cu plăci de dezvoltare cu transputere produse de INMOS. Nu 
contează dacă programul sau datele pot fi partiţionate peste o rețea de 
transputere (vezi $4.5); aspectele de comunicare determină organizarea 
codului şi configurarea legăturilor de comunicaţie. 
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Comunicaţia, joacă un rol important în toate sistemele bine proiectate. 
Strangularea comunicaţiei de la un procesor convenţional se află de obicei 
în interfaţa procesor-memorie, care de regulă este externă procesorului, 
Nu este surprinzător că operaţiile de comunicaţie pot limita performanţele 


` Tabelul 3.13 Timpii de execuţie pentru operaţii în virgulă mobilă la transputerul F200. — 20 este 
partea eare lucrează la 20 MHz, iar — 30 cea care lucrează la 30 MHz, Timpli sint măsuraţi în ns. 


Partea 
'T800—30 | T800 —20 
Operația i 
Precizie 
Simplă | Dublă | simpă Dublă 

Adunare > 233 233 350 350 
Scădere 233 233 350 350 
Înmulțire 433 700 650 1050 
împărţire 633 1133 950 1/00 


maşinilor paralele, deși aici limitele intervin la comunicaţia procesor-proce- 
sor. Mai mult decit atit, această problemă este fundamentală gi, deși 
poate fi deplasată în cadrul ierarhiei sistemului, nu va dispare. De exem- 
plu, putem schimba complexitatea circuitului și a legăturilor folosite într-un 
sistem complet comutat contra unei rețele statice cu un diametru mare. 

În ultimul caz, cînd se prelucrează o structură de date partiţionată, 
partajată între procesoarele sistemului, numai în cazul special cind fiecare 
sub-est de date este independent, nu vor fi necesare comunicaţii între pro- 
cesoare. Mai general, datele trebuie partajate între procesoare şi în cazul 
multor probleme complexitatea comunicaţiilor poate domina complezxita- 
tea algoritmului. De exemplu, la sortare sau calculul produselor între ma- 
trici, fiecare element al structurii rezultate solicită informaţii de la alte 
elemente din structurile originale. 

Astfel de probleme cu proprietăţi de comunicaţii globale se comportă 
mai degrabă nefavorabil cu creșterea paralelismului în sistem, dacă conec- 
tivitaitea între procesoare nu reflectă pe cea dintre sub-structurile de date. 
Se observă în fig. 3.73 că în cazul comunicaţiilor locale numărul de operaţii 
(înmulţiri cu întregi) necesar pentru un cuvînt de date recepționate pe legă- 
tura INMOS este 2. Este de asemenea evident că o degradare a lărgimii 
de bandă a comunicaţiei datorată reţelei cu diametru mare va necesita o 
granularitate relativ mare la partiţionarea algoritmului. Transputerul poate 
ti configurat direct datorită celor patru legături ale sale în următoarele 
rețele : grila bidimensională, cu schimb şi amestec perfect, fluture, alte 
topologii 4-conexe (vezi $3.3.4) . În toate cazurile, dacă partiţionarea date- 
lor nu corespunde reţelei, atunci lărgimea de bandă se va degrada în legă- 
tură cu viteza de calcul a sistemului, proporţional cu diametrul rețelei. 
Dimensiunile reţelelor de mai sus variază de la logn la ny, La aplicaţiile 
care devin limitate datorită comunicaţiilor, performanţa nu va creşte liniar 
cu procesoarele adăugate în sistem. | o 

Tehnica care evită scalarea nevaforabilă este de a permite stabilirea 
între procesoare a unor permutări arbitrare, folosind o reţea în cruce sau 
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echivalentă. Deși ultima are multe avantaje, şi permite o modificare arbi- 
trară a paralelismului, costul tinde să crească cu pătratul numărului de 
procesoare din sistem. Costurile reţelelor fixe variază liniar cu numărul 
procesoarelor. Totuși, deoarece transputerul comunică printr-un circuit; 
serial cu o lărgiine de bandă mare, costul de interconectare nu este prohi- 
bitiv de scump, sau cel puţin nu este așa pentru masive de pînă la citeva 
mii de transputere, care cu T800 ar atinge mai mulți Giflop/s. 

Un sistem cu transputere care permite configurarea unor rețele 
arbitrare a fost propus inițial de unul din autori și este, în momentul de 
faţă, subiectul unui proiect ESPRIT major în prelucrări avansate de in- 
formații.. Unul din factorii care justifică acest proiect este folosirea trans- 
puterelor ca noduri de comutație pentru implementarea reţelelor derivate 
din program, astfel că transputerele să fie configurate în reţele algoritmice, 
Se creează în mod efectiv un nod mai puternic care are o performanță de 
comunicație mai mare decit cea a unui transputer. Paralelismul algoritmu- 
lui poate fi exploatat, cu procesele şi configuraţia reţelei formînd un grat 
de circulaţie a datelor static sau quasidinamic (vezi $4.5.2, pentru detalii), 

Pentru a înţelege argumentele, să considerăm următoarele. Un trans- 
puter are puterea de calcul P și lărgimea de bandă a comunicaţiei O, ra- 
portul C/P determinînd cât de curind lărgimea de bandă a comunicației 
va deveni insuficientă, odată cu introducerea a noi transputere în sistem, 
Să luăm un număr mic de transputere, să spunem n, și să le aranjäm ca 
in fig. 3.74. S-a arătat (Nicole şi Lloyd 1985) că această configurație va 
implementa orice graf cu n transputere etichetate. Se obţine acest lucru 
folosind 2 perechi de 2n x 2n 
comutatoare în cruce com- 
plementare. Un astfel de 
„supernod” poate implemen- 
ta, orice graf 4-conex pentru ă n căi 
un anumit algoritm. Să con- n E 
siderăm acum raportul co- 
municaţiei. Nodul are n 
transputere, deci o putere 
nP; de asemenea, are lăr- 
gimea de bandă a comuni- 
caţiei nC, deoarece există 
o singură legătură externă 
pentru fiecare legătură a unui 
transputer. Raportul este, 
prin urmare, același ca la un ; 
singur transputer, C/P. Totuşi, . 
dacă se conectează aceste 
noduri într-o reţea statică, 
diametrul reţelei va fi mai 
mic, deoarece vor fi necesare 
mai puţine noduri pentru 
atingerea aceleiași perfor- 
manţe ; va fi mai mic cu un 
factor de n. Există trei efecte 
asupra scalării comunicaţiilor. Fig. 3.74 Arhitectura supernodului. 


N 


2 off 2nx2n 
comutatoare 
cruce 
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(1) Deoarece nodul are mai multe-legături, poate fi interconectat cu 
mai multe noduri. De exemplu, pînă la 4n-+1 supernoduri pot fi conectate 
direct cu numai o legătură, 2n+1 cu două legături, și așa mai departe. 
Din acest motiv, diametrul rețelei produse a fost redus considerabil. 

(2) Dacă se implementează o reţea statică cu aceeași topologie, diame- 
trul ei va fi redus în orice caz, deoarece sint necesare mai puţine noduri, 
De exemplu, la o reţea grilă, diametrul va fi mai mic cu un factor de ny,- 

(3) În sfîrşit, deoarece mai puţine noduri pot; primi o cantitate mai mare 
din structura de date, va fi o reducere suprafață/volum în cadrul partiției 
structurii de date care va satisface mai bine necesarul de comunicaţii. 

Desigur, odată definit un supernod de transputere, se pot construi 
recursiv sisteme tot mai mari, așa cum se arată mai- jos, cu notația din 
$1.2.4; 

O = nO0*4n!-18(2n X2n reţea în cruce) 

Co = transputer 

O astfel de descriere definește un comutator cu mai multe etaje, cons- 
truit cu noduri în retea 2nx2n. De exemplu, mașina cu două niveluri 
construită, la Southampton în cadrul ESPRIT este de fapt un set de 
transputere conectate. de o reţea cu trei etaje CLOS. Primul nivel apare în 
fig. 3.74, al doilea în fig. 3.15, unde fiecare nod este un ciorchine de n trans- 
putere sau un supernod. 

“Supernodul poate fi considerat ca un superealeulator, pentru că res- 
pectă modelul de programare OCCAM, acesta asigurind ordine de trans- 
putere pentru fiecare componentă și instrucţiuni pentru iniţializarea cir- 
cuitelor de comutare care realizează reţeaua, necesară. Astfel, OCCAM este 
folosit pentru a defini procedura și structura. Un supernod va conţine în 
mod obișnuit 10—50 transputere, reprezentînd în sine o stație de Iucru 
puternică, de sine stătătoare. Pot fi construite maşini mai mari folosind 
supernodul ca o unitate care se poate multiplica, în masive regulate sau în 
supernoduri cu un nivel mai înalt. 

La proiectul ESPRIT, fiecare supernod va 
foupermed k, Căi 27 ÎNHOS i avea pină la 36 transputere, cele mai multe cu 
D i depre șine! numai 256 KB de memorie RAM static (8 capsu- 

le), cite 8 pe o placă cu format triplu eurocard, 
La nivelul supernodului, unul din transputere, 
cel de control, va avea capsulele de comutare 
definite ca, dispozitive de I/E şi va fi capabil să 
configureze rețeaua locală. De asemenea, acest 
dispozitiv este master- pe o magistrală de 
control de 8 biţi, conectată la toate trans- 
puterele din supernod. Această magistrală 
4 oferă, posibilitatea de a activa și citi semnale 
pe ca reset, analiză și eroare pe orice transputer 
a și asigură un mediu de comunicaţie cu lărgime 
5-1 a NEE ; 
de bandă mică între transputere pentru con- 
Fig. 3.75 | trol şi depanare. De asemenea, această ma- 
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gistrală permite sincronizarea IF ANY şi IF ALL între transputere, astiel 
că evenimentele globale să fie semnalate controlerului. Aceasta, este necesar 
pentru utilizarea dinamică a comutatorului pentru a realiza o referință 
de timp cînd activitatea pe legătură de comunicaţie a încetat și poate fi 
reconfigurată. Fiecare supernod de prim nivel va avea RAM și unități 
de disc. 

Controlerul si magistrala, -sînt conectate la al doilea nivel de un alt 
controler, care setează comutatoarele externe şi lucrează ca master pe 
magistrala unde fiecare controler de prim ordin este slave. Un supernod 
prototip a fost terminat în al treilea trimestru al anului 1987, cu primele 
exemplare ale transputerului T800. La acest proiect colaborează Apsis SA, 
Universitatea din Grenoble, INMOS Ltd., Centrul de cercetări al guvernu- 
lui Marii Britanii RSRE, Universitatea aiai Telmat SA şi 
Thorn EMI plc. 
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LIMBAJE PARALELE 


4.1 Introducere 


În evoluţia limbajelor de nivel înalt au existat două direcţii. Există, 
limbaje care își datorează existenţa unei aplicaţii sau clasă de aplicaţii, ca 
FORTRAN, COBOL și C şi cele care au fost proiectate cu scopul dezvol- 
tării ştiinţei calculatoarelor, ca ALGOL, LISP, PASCAL și PROLOG. - 

Au existat încercări de a produce un limbaj complet care să încorpo- 
reze „cele mai bune” caracteristici ale celor existente, sub forma unui stan- 
dard. O astfel de încercare a întreprins Departamentul Apărării al S.U.A 
(DOD) (1978), iar limbajul rezultat, ADA (Tedd et al 1984, Burns 1985) 
a fost adoptat atit de DOD cît şi de Ministerul Apărării al Marii Britanii. 
Chiar dacă acum sînt disponibile compilatoare validate, cele mai multe 
implementări par foarte ineficiente la realizarea concurenţei. Valori tipice 
pentru crearea şi sincronizarea taskurilor se află în domeniile 4—20 ms, 
respectiv 1—10 ms (Burns 1985, Clapp et al 1986, Rhode 1986). Aceste 
valori pot fi comparate cu cifrele similare, dar măsurate în microsecunde, 
penru OCCAM, limbajul implementat pe transputer. 

Se poate afirma că procedura adoptată pentru ADA a fost condam- 
nată încă de la început ; a trecut aproape o decadă de la stabilirea obiec- 
tivelor pînă la utilizarea pe scară largă a compilatoarelor validate. Com- 
pilatoarele obţinute ocupă spaţiu mare, deoarece limbajul este „complet” 
şi implementările care acceptă concurenţa reală în cazul sistemelor distri- 
buite sînt încă imature. Mai mult, în cursul acestei perioade de timp s-au 
produs modificări fundamentale în concepția si felosirea calculatoarelor. 
În particular, această decadă a înregistrat utilizarea pe scară largă a concu- 
renţei. Deşi ADA acceptă concurența, există acum mult mai multă ex- 
perienţă practică privind concurenţa, s-au dezvoltat noi limbaje, ca 
OCCAM (May şi Taylor 1984), care tratează concurenţa într-o manieră 
mai simplă, mai consistentă și la un nivel mai inalt de formalizare, OCCAM 
nu este un limbaj complet, dar abordarea sa explicită și minimală îl face un 
instrument ideal pentru explorarea tehnicilor care exploatează paralelismul. 

Totuşi, aşa cum vom demonstra în acest capitol, aplicaţiile numeroase 
şi foarte diferite ca şi modelele paralele aferente ver nccesita structuri de 
limbaje complet diferite. 
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Una din diferenţierile importante înregistrate în evoluţia limbajelor 
în utlima decadă este cea dintre stilurile de programare imperâtiv și decla- 
rativ. Stilul de programare declarativ a avut efectul cel mai profund 
asupra cercetărilor privind arhitectura calculatoarelor în această peri- 
oadă. Acest stil de programare nu este adecvat arhitecturii von Neumann 
clasice, cu folosirea intensă a structurilor de date dinamice, care numai pun 
in evidenţa, deficențele unui singur port de acces la o memorie liniară 
(strangularea von Neumann). Deși această distincție nu este subiectul 
acestui capitol, există o literatură bogată la dispoziţia cititorului interesat. 
O bună introducere o reprezintă Funcţional Programming (Henderson 1980) 
şi Distributed Computing (Chamber et al 1984). 

O altă direcţie importantă care are obiectivul promovării conceptului 
soft-ului reutilizabil, este reprezentată de programarea orientată obiect 
(object-oriented). Deși este posibil să cumperi numai anumite circuite 
integrate, cu specificaţii precise (date în cataloage), şi să le integrezi într-un 
sistem mai complex, aceeași noțiune a componentelor sfotware standard 
(„off the shelf”) s-a limitat pînă acum la pachete de programe științifice 
(echivalente, să spunem, . componentelor MSI TTL). Limbajele orien- 
tate- obiect oferă programatorului posibilitatea de a construi „capsule 
software” de complexitate arbitrară; se promovează astfel conceptul 
„magazinului de programe”, unde un inginer poate testa şi cumpăra pa- 
chete pentru aplicaţii, fiind sigur (la consultarea cataloagelor) că pot fi 
integrate într-o aplicaţie unică. Pentru o introducere entuziastă a acestor 
concepte, îndrumăm cititorul la lucrarea Object Oriented Programming 
(Cox 1986). 


Aht Limbaje imperative 


Un limbaj imperativ specifică calculatorului secvența de operații ce 
trebuie executată sau, dacă sistemul acceptă, secvențe distincte de instruc- 
tiuni ce lucrează concurent. Limbajele imperative au evoluat din primele 
coduri de programare ale mașinilor, prin abstractizări succesive față de 
hardware și structurile sale limitate de control. S-au obţinut două efecte 
benefice, creșterea productivității muncii de programare şi portabilitatea, 
programelor, obținută prin definirea unui mediu de programare independ- 
dent de maşină. 

Un limbaj imperativ, chiar la cel mai înalt nivel de abstractizare va 
reflecta etapele algoritmice pentru obţinerea soluţiei. În plus, față de păs- 
trarea noţiunii de secvență, aceste limbaje mențin conceptul spaţiului de 
adresare liniar, caracteristic celor mai multe mașini. Acesta se reflectă în 
folosirea masivelor, cu acces direct la toate elementele. 

Una din abstracţiunile adăugate mai recent modelului de programare 
imperativ a fost introducerea concurenței (Harland 1985), caz în care mai 
multe secvenţe de instrucţiuni disjuncte pot fi executate în paralel. Această, 
abstracţiune sau paralelism al fluxurilor de instrucțiuni a apărut înaintea 
introducerii pe scară largă a concurenţei hardware, datorită solicitării de a 
exploata cît mai intens singura resursă mai costisitoare a calculatorului, 
unitatea centrală. Yask-urile separate logic pot partaja ciclii CPU, evitin- 
du-se astfel situaţia cînd un task trebuie să aștepte încheierea unor operaţii 
de I/E lente. Se poate obţine o partajare nedeterminată a cielilor CPU prin 
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"generalizarea concurenței. Orice task care așteaptă încheierea unor operaţii 

eu periferice lente poate fi suspendat de sistem, pentru a permite lansarea 
în execuţie a altui task. Astfel de medii multiprogramate folosesc întreru- 
perile, un mecanism care permite dispozitivelor periferice să atragă atenţia 
unităţii centrale cind este cazul. 

Lucrarea lui Harland (1985) reprezină o introducere bună pentru con- 
ceptul de concurenţă în limbaje de programare imperative. El dezvoltă, 
această temă plecînd de la primele solicitări pentru concurenţă, pînă la cele 
mai noi, care includ considerarea procesoarelor şi programelor ca valori 
ale limbajului. 


4.1.2 Limbaje declarative . 


Stilul de programare declarativ este fundamentat matematic şi urmă- 
reşte înlocuirea descrierii algoritmului cu o descriere riguroasă a problemei. 
De aici denumirea de declarativ. Aceste limbaje se pazează fie pe calculul 
funcțiilor, calculul lambda, sau pe un subset al logicii cu predicate. Exemple 
le oferă LISP, respectiv PROLOG. O bună prezentare a aspectelor funda- 
mentale şi a aplicaţiilor în cadrul stilului de programare o oferă cartea 
Logic, Algebra and Databases (Gray 1984). Pentru limbajele declarative, 
structura de date naturală este lista, care este o aplicaţie indirectă pe un 
spaţiu liniar de adrese. Oricum, această structură este mai puţin adecvată 
implementării pe un spaţiu liniar de adrese, decît masivul şi poate conduce 
la utilizări foarte ineficiente ale celei mai. critice resurse a calculatorului, 
interfaţa, procesor-memorie. 

Deși mai puţin eficient decit stilul imperativ de programare, există o ce- 
rere continuă pentru limbaje bazate pe un formalism matematic. Motivul 
este complexitatea crescută a sistemelor de programe moderne și dependenţa 
în creştere a societăţii moderne de astfel de sisteme. Deplasarea spre sisteme 
expert sau inteligente se face pe baza unor stiluri de programare mài puțin 
regulate şi, deci, mai puţin imperative. Productivitatea programatorului 
poate fi crescută mult pentru multe aplicaţii prin folosirea limbajelor mai 
formale (Henderson 1986). Mai mult, deoarece limbajele declarative se 
bazează pe matematici, este posibilă verificarea formală a sistemelor soft- 
ware create cu ele (Gries 1976). e 

Un avantaj suplimentar al abordării declarative, sau cel puţin amintit 
cu avantaj de experții din acest domeniu, este că asttel de limbaje pot fur- 
niza paralelism implicit, la fel cu secvenţierea implicită (Clark și Gregory 
1984, Shapiro 1984). Totuşi există capcane, ca de exemplu generarea para- 
lelă a activităţii neproductive ! Cercetarea în acest domeniu este foarte 
activă, finanțată prin programul de cercetare Alvey, progrese importante 
fiind de așteptat pentru anii '90. De exemplu, ICL colaborează la un proiect 
Alvey important care poate conduce la definirea unor limbaje declarative 
eficiente, ce se vor baza pe calculatoare paralele. Dacă aceste calculatoare 
vor fi instrumentele de uz general de la siirşitul anilcr '90, care vor înlocui 
calculatoarele tradiționale, este o problemă deschisă. 

Ca, o introducere la acest stil de programare, $4.3.4. descrie CMLISP 
sau * LISP, un limbaj ce se bazează pe LISP, de unde notația lambda. 
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Acest limbaj conține extensii pentru connection machine care implică o 
exprimare explicită a paralelismului în structura listei. Connection machine 
a fost deja descrisă în capitolul 3. 


4.1.3 Limbaje orientate obiect 


Limbajele orientate obiect se bazează pe două tehnici principale, în- 
capsularea ṣi moştenirea proprietăților. Noțiunea de obiect este o bază mai 
pragmatic decit riguarea limbajelor logice sau funcționale. Se asigură o 
soluție potențială la problema de programare discutată anterior, care, în 
același timp, poate fi acceptabil de eficientă pe calculatoarele convențio- 
nale. Mai mult, reprezintă un model de calcul care poate fi implementat 
pe un sistem distribuit. 

Din cele două tehnici, hepnari este cea mai directă şi este folosită 
adesea ca o tehnică bună 'de programare (Parnas 1972, Booch 1986) chiar 
cînd nu este impusă de limbaj. Încapsularea ascunde data şi permite folo- 

sirea unor metode sau proceduri de acces la ea. Modulele în ADA (Burns 
1985) și Modula 2 (Wirth 1981) încorporează această tehnică. Accesul la 
date se asigură numai prin proceduri partajate. Încapsular ea datei şi meca- 
nismele de acces definesc, în acest mod, obiectul, iar un limbaj orientat 
obiect este cel care îndeplineşte acest regim prin construiea unei fortărețe 
impenetrabile în jurul acestor obiecte. Aceasta se poate realiza la un nivel 
inalt, ca la OBJECTIVE C ṣi ADA (Cox 1986), sau la un nivel inferior în 
sistem cala SMALLTALK 80 (Goldberg şi Robson. 1983). 

Avind încapsulate eforturile unui programator în crearea unor astfel 
de obiecte, trebuie să se asigure un mecanism pentru evoluţia sau moște- 
nirea acelui obiect, fără a executa un asalt pe scară largă asupra apărării 
sale. Acestea este a doua tehnică a limbajelor orientate obiect — moşte- 
nirea permite programatorului să creeze clase de ghiera, care pot avea 
mecanisme comune de acces sau formate comune de date. De exemplu, 
fiind dată o clasă de obiecte masiv” putem dori să o folosim la implemen- 
tarea unei sub-clase de obiecte „şir”, care se bazează pe obiectele masiv 
dar au mecanisme de acces specifice şirurilor. Reciproc, fiind dat un set de 
mecânisme de acces la un obiect, putem dori să extindem domeniul tipului 
acelui obiect, dar să exploatăm mecanismele de aces care deja există. Aces- 
tea sînt exemple de moştenire. Mecanismul de implementare a moştenirii 
constă în înlocuirea apelului funcţiei sau procedurii la un obiect cu un meca- 
nism ce implică un transfer de mesaje între obiecte. Mesajul reprezintă o 
cheie prin care se poate selecta mecanismul de acces. Este echivalent cu o 
construcţie tirzie sau întirziată a unui mecanism de acces la un apel de 
funcție sau procedură. Astfel, numai în ctapa execuţiei, cînd o clasă face 
o selecție, se alege mecanismul de acces sau tipul de dată indicat. 

Noţiunea de încapsulare poate fi distribuită cu ușurință deoarece, 
cum se arată mai sus, implementările se bazează adesea pe transmiterea 
de mesaje. Noţiunea de moştenire nu este distribuită la fel de uşor, deoarece 
îoioseşte un arbore al clasei care defineşte şi extinde obiectele. O implemen- 
tare distribuită a unei clase de obiecte va deveni saturată rapid la rădă- 
cină, dăcă se implementează în mod naiv pe un procesor cu structura de 
arbore. Prin exploatarea paralelismului aplicaţiilor şi multiplicarea struc- 
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turii clasei (programul) cînd este necesar, se poate obţine o configuraţie 
eficientă. Mai mult, datorită naturii comunicaţiei, se poate realiza cu ugu- 
rinţă o echilibrare dinamică a încărcării. Limbajele orientate obiect pot fi 
deci considerate ca primi candidaţi pentru exploatarea eficientă a siste- 
melor paralele, unde „eficient” implică o utilizare eficientă atît a maşinii 
cît și a programatorului. Domeniul este nou și s-au publicat puţine lucrări. 
Cititorul interesat poate consulta lucrările conferinţei OOPSLA 1986 publi- 
cate ca un număr special în notele SIGPLAN (Meyrowits 1986). 

Deşi am trecut în revistă cîteva orientări ale limbajelor moderne, acest 
capitol (cu excepţia CMLISP) respectă direcţiile de dezvoltare a limbajelor 
imperative, ca-și modul lor de evoluţie pentru a trata diversele aspecte ale 
paralelismului hardware. Secţiunea 4.3 tratează paralelismul introdus prin 
structură, așa cum se întilneşte la arhitecturile SIMD. Aceste limbaje sint 
ideale pentru masive de procesoare, ca ICL DAP şi procesoare vectoriale, 
ca CRAY-1. Secţiunea 4.4 analizează utilizarea paralelismului procesului 
sau task-ului întîlnit la si stemele MIMD. Totuși, exploatarea cea mai obiş- 
nuită a paralelismului o asigură compilatoarele vectorizante FORTRAN fo- 
losite de cele mai multe calculatoare vectoriale. Această formă de paralelism 
este extrasă din structurile de bucle din codul secvențial. Are avantajul(pro- 
babil singurul) că programele secvențiale existente pentru aplicații produc- 
tive pot beneficia de creşterea de viteză de execuţie a instrucţiunilor vec- 
toriale, implemetare la unităţile în virgulă mobilă pipeline. Această so- 
luţie, ca şi dezavantajele ei potenţiale sînt discutate pe larg în $ 4.2. 


4.2 Paralelism implicit și vectorizare 


4.2.1 Introducere 


Limbajul de nivel înalt a fost dezvoltat ca instrument de programare 
care să exprime algoritmii într-o formă concisă și independentă de maşină. 
Unul din limbajele cele mai obişnuite, FORTRAN, își are rădăcinile în 
anii '50 și, de aceea, reflectă structura maşinilor din acea epocă : calcula- 
toare care execută secvențe de operaţii asupra unor date scalare, Prin ur- 
mare, programarea în aceste limbaje impune descompunerea algoritmului 
într-o secvență de pași, fiecare constind în execuţia unei operaţii asupra 
unui obiect scalar. De obicei ordinea calculelor este arbitrară, de exemplu 
la adunarea a două matrici este lipsită de importanţă ordinea de combinare 
a elementelor, deşi un limbaj de programare secvențial trebuie să implice 
o anumită ordonare. Aceasta nu numai că măreşte numărul de instrucţiuni, 
dar poate duce la execuţia ineficientă a algoritmului. i 


Să considerăm, de exemplu, codul FORTRAN pentru adunarea a 


DO10J =1,N 
DO101 = 1,N 
AC, J) = AU, J) + B(I, J) 
10 CONTINUE 
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Elementele lui A și B sint accesate în ordinea coloanelor, care este 
prin definiţie ordinea în care sint memorate. La multe calculatoare, dacă 
această ordine este inversată, programul nu se va mai executa la fel de 
eficient. În acest exemplu, deoarece algoritmul nu necesită nici o ordonare, 
este lipsit de înţelepciune să se facă acest lucru prin program. Dacă nu se 
programează o anumită ordine, compilatorul o va alege pe cea mai efici- 
entă pentru calculatorul ţintă. Mai mult, dacă acesta conţine paralelism, 
atunci toate sau o parte din operaţii pot fi executate concurent, ga nici o 
analiză sau ambiguitate. 


Limbajul APL (Iverson 1962) a fost primul limbaj folosit pe scară 
largă care exprimă consistent paralelism, deşi obiectivul său a fost mai 
degrabă exprimarea concisă a problemelor decit evaluarea lor paralelă. Iver- 
son a luat; concepte și notații matematice pentru a construi un limbaj. 
Totuși, diferenţa importantă dintre o descriere matematică a unui algo- 
ritm şi a unui program care să-l execute constă în descrierea și manipularea 
structurilor de date. APL conţine posibilităţi puternice de manipulare a 
datelor. 

"Capitolele 2 și 3 au descris noi realizări în arhitectura calculatoarelor. 
Acestea conţin paralelism într-o formă sau alta, regăsit la modul de exe- 
cuţie al instrucţiunilor. Prin urmare, s-a ajuns (aproape două decade după 
Iverson) la situaţia de a applied paralelismul în algoritm pentru a fi exe- 
cutat paralel. | 


4.2.2 Abordarea ideală 


Pentru 'a ilustra necesitatea enunțată mai înainte, să luăm în consi- 
derare dezvoltarea programelor, de la enunţul problemei de rezolvat, pînă, 
la execuţia sub forma codului maşină pe calculatorul ţintă. Pot fi identafi-" 
cate următoarele 4 etape, unde literele din paranteze indică gradul de para- 
lelism al etapei respective : 

(a) alegerea unui algoritm adecvat problemei (P) ; 

(b) complicarea programului într-un limbaj de nivel înalt (L); 
(c) compilarea programului într-un cod direct executabil (O) ; 
(d) execuţia codului pe mașina ţintă (M). 

Gradul de paralelism este reprezentat de numărul apai indepen- 
dente ce pot fi executate simultan (vezi § 5.1.2). 

În situația ideală, gradul de paralelism nu trebuie să crească odată cu 
parcurgerea procesului prezentat. Denumim acest principiu conservarea 
paralelismului, adică 

P>L>O0>M 


Limbajele de programare care respectă aceste relaţii permit programa- 
torului să exprime paralelismul implementărilor algoritmilor în termenii 
unor construcții explicite ale limbajului, fără constrîngeri impuse de 
maşina țintă. Dacă această expresie a algoritmului se dovedeşte ineficientă, 
va trebui aplicată o transformare pentru a ordona calculele. Verificarea 
dezirabilității acestui principiu este imediată ; înlocuirea unei operații 
paralele cu o eaa de paşi solicită numai o ordonare arbitrară, a ope- 
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raţiilor elementare. Înlocuirea unui proces secvențial cu o operaţie para- 
lelă impune o analiză mai complexă. Trebuie analizată circulația datelor 
pentru a se asigura că ordonarea este în fapt arbitrară şi că nu există 
dependențe secvențiale în operaţiile paralele propuse. Inevitabil, această 
analiză este împiedicată de construcţii și variabile specifice fazei de exe- 
cuţie. 


49.3 Veetorizarea 


Solicitarea continuă ca noua generaţie de calculatoare să execute pro- 
gramele deja existente, fără modificări, a condus la un compromis în exploa- 
tarea beneficiilor performanţei obţinute prin paralelism. De aceea, toate 
calculatorele vectoriale cu succes comercial posedă compilatoare vectori- 
zante (Wolfe 1986). 

Cum se compară abordarea prin vectorizare cu idealul nostru ? 


CRAY-1 reprezintă un exemplu bun pentru această, soluție. Programul 
trebuie scris în FORTRAN Secvenţial (L = 1). Totuși, maşina are para- 
lelismul natural 64, deci O = M = 64. În această situaţie orice paralelism 
al algoritmului se pierde atunci cînd se exprimă în limbajul de nivel înalt, 
deci trebuie regenerat de către compilator. Fig. 4.1 ilustrează acest proces : 
(a) situaţia ideală şi (b pierderea și generarea paralelismului). 

Această soluţie trebuie considerată numai ca un mijloc temporar de 
menţinere a continuității la transferul pe un calculator paralel. Destul de 
des, compilatorul vectorizant nu va produce structuri paralele, ca alterna- 
tivă la vectorizare. Astfel, dezvoltarea noului program trebuie să se facă în 
întregime în limbajul secvențial, care poate avea efectul întăririi preferin- 
telor pentru programarea secvenţială și, mai mult poate conduce la prac- 
tici de programare obscure. Vectorizarea solicită adesea intervenţia progra- 
matorului, deoarece multe dependențe pot îi rezolvate în faza de execuţie. 
Rescrierea programului pentru evitarea acestei situaţii produce adesea 
construcții obscure şi practici de programare rele, care ascund algoritmul 
de bază şi fac întreţinerea programului mai dificilă. 


4.2.4 Paralelismul mașinii 


Din păcate, cele mai folosite limbaje care exprimă paralelism fac acest 
lucru prin limitarea paralelismului la cel întîlnit pe calculatorul țintă. Deci, 
L = O = M şi se datorește P > L. Fig. 4.1 (d) ilustrează această, relaţie. 
Evident aceste limbaje nu sînt portabile, prin definiţie. Ele au evoluat în 
absența oricărui standard de prelucrare paralelă, ca limbajul cel mai simplu 
şi eficient implementat pe o maşină dată. Sint eficiente deoarece construc- 
țiile lipsite de eficiență sînt complet evitate. De asemenea, programatorul 
cunoaşte paralelismul maşinii şi deci poate evita o neconcordanţă severă 
cu structurile de date ale problemei sale. Cu cît se produc mai multe calcu- 
latoare (şi limbaje) paralele, cu atit problemele portabilității programelor 
devin mai severe (Williams 1979). Vom aborda ulterior această problemă 
a D: 
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4.2.5 Tehnici de vectorizare 


Compilatoarele vectorizante analizează programul seris într-un limbaj 
seevenţial,de obicei FORTRAN, şi, unde este posibil, generează instrucțiuni 
paralele sau vectoriale pentru mașina ţintă. Pentru a realiza acest lucru, 
compilatorul trebuie să identifice segmente de cod cu tipare care se ştie 
că sint vectorizabile. De exemplu, un tipar foarte simplu este: 


DO <LABEL > Y = <CONST > TO <CONST > 
<LABEL > <ARRAY VAR > (Y) = <ARRAY VAR > (Y) <OP> 
<ARRAY VAR > (Y) 


pi i 4 Acesta se va înlocui cu unà sau 
| pi ză Hi w mai multe operaţii vectoriale, func- 
ol . ' —— ție de setul instrucțiunilor ţintă 


zi Pi şi diferenţa intre constantele limită 
: ANII NN, APERE e ale buclei. Tipare mai complexe 
conţin bucle definite de variabile, 
expresii cu masive, instrucţiuni 
condiţionate, apeluri de subrutine 
şi construcţii încuibărite, 
Procesul poate îi considerat; ca 
o optimizare sau transformare a 
codului sursă, sau o formă mai 
"compactă a acestuia, De exemplu, 
compilatorul calculatorului Texas 
Instrument: Advanced Scientific 
Computer (ASC NX) execută op- 
timizarea asupra reprezentării co- 
dului sursă ca un graf orientat. 
Pentru simplitate vom considera 
în cadrul acestui capitol numai 
exemple de transformare a codului 
sursă. Este evident că locul cel mai 
probabil unde se întîlnesc secvenţe 
de operaţii adecvate vectorizării 
este reprezentat de calculele repe- 
titive, sau buclele DO în FOR- 
TRAN. Compilatorul vectorizant 
va analiza buclele DO, fie cea mai 
Ei AT Pareuel id eta cu, procesul ia interioară, fie mai multe. Compila- 
2 ul co: e Tee 3 
ematu a că estate (c) limbaje torul ASC NX analizează cel mult 
care pot exprima paralelismul problemei; (d) trei bucie DO încuibărite şi dacă 
limitare a paralelismului exprimat de limbaje. nu exisiă dependențe poate pro- 
„_ duceo singură instruciune maşină. 
Compilatorul calculatorului BSP analizează buclele DO încuibărite. Dacă 
una din buclele interioare conţine o dependenţă, le va reordona, 


În general, transformarea executată asupra uneia sau mai multor bucle 
DO este o modificare a secvenţei sau ordinii de execuţie. La execuţia sec- 


Cresterea paralelismului 
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venţială a buclei DO, ordinea constă în execuţia instrucțiune cu instrucţiune, 
pentru fiecare valoare a indexului de buclă. Ordinea i impusă pentru o exe- 
cuţie paralelă este una în care fiecare instrucţiune se execută pentru toate 
valorile indexului, înainte de a se trece la următoarea. Această transtor- 
mare poale fi executată numai cînd nu există feedback în și între instruc- 
ţiunile buclei. În vectorizare, sarcina principală este detectarea, şi analiza 
acestor dependențe. 


42,6 Bariere în calea vectorizării . 


Este util să trecem în revistă diferitele costrucţii care pot inhiba sau 
bloca procesul de vectorizare. Unele din ele sînt fundamental nevectorizabi- 
le, în timp ce altele sint construcţii „dificile” pentru analiza întreprinsă 
de vectorizator. 


(i) Instrucţiunile condijionale și de sali 


Buclele care conţin instrucţiuni IF și transfer de control pot inhiba, 
procesul de vectorizare. Totuși „multe condiţii codificate cu una sau mai 
multe instrucțiuni pot fi paralelizate (cu o oarecare pierdere de atit ei 
De exemplu, bucla simplă 


DO 10 1 = 1,N 
10 IF (A(I) . LT. 0) A(I) = — A(I) 
se reduce la construcția paralelă ($ 4.3.1) 
AA. LT.0) = — 


unde A. LT.O construiește vectorul mască care controlează” operaţia 
vectorială. Este posibil să se vectorizeze condiţiile reprezentate cu o instruc- 
iune sau, mai complex, cu mai multe instrucţiuni prin folosirea tehnicii 
mascării. 


(ii) Dependente secvențiale 


Se referă la domeniul cel mai mare de bariere în calea vectorizării. 
Unele dependențe se datorează; ordinii instrucțiunilor, altele naturii recur- 
sive a calculelor. Prima categorie poate fi vectorizată cu uşurinţă prin 
reordonarea inaire phenior şi folosirea zonelor de memorie temporară. Să 
luăm exemplul simplu : 


DO 101=2,N 
AC — 1) = NEW() 
10 OLD(I) = AU) 


Această construcţie pare inventată, dar este tipică pentru construc- 
tiile indexate are pot inhiba v ectorizarea. Nu este recursivă, deși aplicarea 
simplă a transformărilor de ordonare va produce rezultate eronate. Ordo- 
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narea respectivă va atribui valorile vechi ale lui A(I) vectorului OLD(I) ; 
ordinea modificată dă valorile noi ale lui A(I) (de exemplu, NEW(I + 1)) 
vectorului OLD(I). Problema, constă într-o evaluare corectă a timpului de 
execuţie, un bun compilator reordonînd calculele san asigurind spaţiu de 
memorie temporară pentru valorile vechi ale lui A(T). 

Buclele echivalente de mai jos sînt vectorizabile amîndouă : 


-DO 10 I = 2,N 
OLD(I) = A(D) 
10 A(I — 1) = NEW() 


DO 10 I = 2,N 
T (I) = A(D) 
A(I — 1) = NEW(I) 
10 0LD() = TI) ` 
Construcția recursivă este similară exemplului de mai sus şi poate îi 
exprimată cu o linie, sau implicit cu mai multe atribuiri. Iată două exemple : 
DO 10 1=2,N 
T = AC — 1) + B(I) 
10 A(I) = T +- C(I) 


DO 10 1I=2, N` 
10 A(I) = (A(T — 1) + A(I + 1))/2 


Acestea sint exemple de recurențe liniare de ordinul unu, care nu pot 
fi vectorizate fără a se recurge la algoritmi speciali (vezi $ 5.2). 
În general, pentru o construcţie care are forma 
DO 10 I=... 


A(I) = A(I + OFSET) 


unde OFFSET este o variabilă întreagă, vectorizarea este imposibilă. Com- 
pilatorul nu cunoaște în faza compilării că OFFSET are acelaşi semn cu 
incrementul buclei, sau nu intervine nici o suprapunere între membrul sting 
și cel drept din instrucţiunea de atribuire. Astfel, construcţia poate fi teo- 
retic vectorizată, dar practic niciodată, dacă nu se execută compilări de 
test corespunzătoare fazei de execuție. | 


(iit) Indexare neliniară şi indirectă 


Vectorizarea poate fi înhibată, de asemenea, de anumite expresii cu 
indecşi. Combinații liniare simple de variabile indexate în cadrul buclelor 
nu ar trebui să producă probleme, atit timp cît nu există restricţii hard- 
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ware. Dacă, însă, expresiile sînt neliniare sau conţin referinţe indirecte, 
vectorizarea nu mai este un proces banal. Iată exemple de expresii cu in- 
decși care pot inhiba paralelizarea : . 


(I +J +K) 
(IV(1)) 


În primul caz dacă fie I, fie J sînt invariante în bucla considerată, expresia 
este liniară şi vectorizabilă, altfel nu. 


(iv) Apeluri de subrutine în cadrul buelelor 


Ultima, barieră în calea vectorizării, luată aici în considerare, este 
includerea subrutinelor sau a apelurilor de funcții definite de utilizator, 
m cadrul buclelor. Acestea nu sînt vectorizabile deoarece, de obicei, sub- 
programele se compilează separat şi compilatorului îi lipseşte informaţia, 
necesară analizei. 


4.2.1 Vectorizatorul BSP 


Compilatorul BSP (Austin 1979) este un exemplu bun de utilizare æ 
tehnicilor de vectorizare. Se bazează pe experienţa în acest domeniu de la 
Universitatea Illinois. El analizează mai mult de un nivel de bucle încuibă- 
rite și poate executa anumite reordonări a instrucţiunilor și buclelor DO. 
În plus, vectorizează buclele care conţin recurenţe liniare de prim ordin 
şi anumite bucle cu instrucțiuni IF. Următoarele exemple de vectorizare 
sint preluate din lucrarea lui Austin (1979). Vectorizarea se exprimă în 
termenii construcţiilor paralele BSP. 

În acest ultim exemplu, a fost izolată o recurenţă î ă în J şi sau vectorizat 
buclele cea mai interioară, şi cea mai exterioară, în M şi L. Observăm că, 
deşi sistemul hardware BSP poate manipula recurenţe de ordinul 1, vec- 
torizarea recurenţelor va fi utilizată numai dacă. nu se poate realiza altă 
vectorizare a unui set dat de bucle DO. Motivul este că evaluarea: paralelă, 
a recurenţelor liniare de ordinul 1 nu este 100%, eficientă (vezi $ 5.2). 


4.3 Paralelismul struetural 


Secţiunea 4.2 furnizează o soluţie la problema portabilităţii, care constă, 
în utilizarea în continuare a limbajelor existente (secvențiale), iar gene- 
area. structurii: problemei sau algoritmului pentru sistemul hardware res- 
pectiv este lăsată, în sarcina sistemului. Tehnicile pentru generarea auto- 
mată, a paralelismului sînt limitate la optimizarea buclelor pentru execuţia 
lor pe procesoare'vectoriale. Exploatarea automată a altor forme de para- 
lelism,de exemplu a sistemelor cu multplicarea resurselor, nu este pe deplin 
înţeleasă, rezultatele obţinute arătind o utilizare slabă a procesorului gi 
resurselor de comunicaţie. Una din problemele importante în această pri- 
vință este lipsa formalismului pentru descrierea structurii problemei în 
cadrul unui model consistent de calcul care va facilita o organizare a acelei 
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N 


DI ca ta 


na- 


LOSP CONTAINING AN IF STATEMENT 
DO 2 I=1,N-1 
IF (m OT, 3) AUD) = A(I+1) + CUI) 
CONTINUE 
IF LOOP VECTORIZED > 
i WHERE (H,8T,3) ACL:N-1) = A(ZIN), +C(1: N-43} 
MULTI-STATEMENT CONDITIONAL 
DO 3 I=1,N 
IF (AIID, LT BCD) GOTO 31 
CD = ElI) +2 
GOTO 3 
Cily = Fi) 
CONTINUE l i 
MULTI-STATEMENT LOOF VECTORISED 
LOGICAL L(N) 
L SAUN) , BE , BCN) 
WHERE GY DO 


TLIN) = E(LIN) +2 

ALSIN) = C 
OTHERWISE 

Cit) =FéirNG 
ENISMERE 


MULTI-STATEMENT LOOF WITH NCN-VECȚORISAELE RECURRENCE 


& DO 4 142,100 S 
. -A(1) = Ec) + 1 ù 
Cel) = D(I-1) + ECI) 
DEI) =C(1) + ACI) 
'F(Ţ) = DCI) +2 ; š j 
PARTIAL VECTORISATION s 
A(2:100) = B(2:100) +1 
„DD I = A,100 
CtI) D(I-L) + E(I) 
D(1) = C(I) + A<(I) 
END DO ; y 
'F(2:100) = D(2:100) + 2 
LOOF REQUIRING STATEMENT PARC Ea 
DO 51 = 1,N E 
AlI} = RII) + C<1) 
cC(]) = B(I-L) 
B(1) = 28¥%A(I+1) 
VECTORISED WITH TEMPORARY AND REORDERING 
REAL TEMP (N) 
TEMP CIN) = A(2:N+1) 
ALLEN) = BELLEN) + C(L:N) 
R(14N) = ZETEMP((:N) 


C(1:Nj = B(O:N-t) 


j» 


g LOOP PERENA REORDERING 
DOAI=1, N 
DO 6 J= 1,N 


DO 6 K = 1,;L 
AlI J+i, KO + E(I,J- -1;K) 
& B(I,d, K) = AIJ, K) 
e VECTORI ZATION WITH REORDERING 
DO 7 J= 1,,N 
ACI, J+, tiL) = B(i:M, J-i, i: 
7 B(1:M, J, 1:L) = Acta Me 3. i: L) SA 
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structuri corespunzător structurii maşinii. Această problemă nu este defi- 
nită bine în limbaj, care trebuie să folosească bucle şi indexări pentru a o 
exprima. Alte abordări mai teoretice tratează obiectele masiv şi clasele de 
aplicaţii ce li se pot; aplica (de exemplu, vezi $3.3 şi Flanders (1982)). 

Chiar proiectat pentru un calculator vectorial, compilatorul vectori- 
zant nu este soluţia ideală pentru portabilitate. Desigur, programatorul 
va optimiza codul FORTRAN secvențial, astfel încît compilatorul să vec- 
torizeze cît mai mult -posibil. Datorită diferenţelor hard-ului vectorial, lun- 
gimea optimă a buclelor şi modalităţile de acees la memorie se vor schimba 
de la maşină la mașină. Prin urmare, soluția vectorizării pentru asigurarea 
portabilității cade, deoarece programatorul tratează FORTRAN-ul, ca 
şi în trecut, ca un limbaj de asamblare. O soluţie alternativă constă în de- 
clararea explicită de către programator a părţilor de program care să fie 
executate în paralel. În acest mod, se poate alege structura paralelă care 
să exprime soluţia problemei, fără referire la structura maşinii folosite. 
Acum problema portabilității devine una de implementare, deoarece expre- 
siile paralele folosite de programator trebuie să se execute eficient pe mașina 
ţintă. 

Pentru exprimarea explicită a paralelismului sint disponibile. două" 
tehnici : prin folosirea unei descrieri a structurii de date care să exprime 
paralelism , paralelismul structural, sau prin folosirea unei descrieri a pro- 
gramului sau a structurii procesului pentru exprimarea paralelismului, 
paralelismul procesului. În unele circumstanţe cele două metode pot fi 
foarte similare, deoarece structura procesului unui program distribuit 
poate fi proiectată să exploateze structura datelor. Pentru a îace o distinc- 
ţie în aceste circumstanțe, să presupunem că paralelismul structurii este 
definit ca granularitatea, unei singure operaţii şi că operaţiile se execută 
simultan cu fiecare element al structurii de date.. Paralelismul procesului, 
pe de altă parte, se defineşte cu o granularitate mare, cu un flux de instruc- 
ţiuni şi o stare asociată fiecărui element, sau (mai probabil) cu fiecare 
partiție a structurii de date. 

Între aceste forme de paralelism, distincţia o face modelul de calcul 
corespunzător sistemului hardware, ca şi maniera în care este echilibrată 
încărcarea sistemului. La paralelismul structural, se pot considera proce- 
soare virtuale asociate cîte unul la un element structural de date, datele 
activate fiind distribuite pe procesoarele disponibile într-o manieră care 
echilibrează încărcarea acestora. Astfel, sarcina de lucru este împărţită prin 
redistribuirea elementelor structurale de date — data remapping. De exem- 
plu, dacă s-a selectat pentru procesare numai o linie a unei matrici distri- 
buită, poate fi necesară o redistribuire a elementelor liniei pentru a încărca 
toate procesoarele. Această metodă poate fi interpretată şi ca o redistri- 
buire a procesoarelor virtuale la procesoarele existente pentru a le menține 
încărcate. La paralelismul procesului, pe de altă parte, partiţia progra- 
mului sau procesului este virtualizată şi se realizează echilibrul încărcării 
prin distribuirea, proceselor pe procesoare. Paralelismul procesului se tra- 
tează mai pe larg în $4.4: această secţiune tratează numai exploatarea 
paralelismului structural. 

În esenţă , paralelismul structural este o metodă formală pentru expri- 
marea rezultatului transformărilor de vectorizare prezentate în $ 4.2, deoa- 
rece semantica operaţională a procesorului vectorial corespunde acestui tip 
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de paralelism. Vectorizarea se poate folosi în cazul calculatoarelor vecto- 
riale, deoarece accesul în maniera pipeline la un sistem de memorie unic 
poate masca transformarea datelor, implicită în cazul acestei semantici şi, 
de asemenea, deoarece eficienţa unui pipeline este o funcţie asimptotică 
de lungimea vectorului (vezi $ 1.3). 

Paralelismul structural s-a folosit la mai multe extensii de limbaje, de 
obicei pentru esprimarea paralelismului SIMD caracteristic masivelor de 
procesoare, ca în cazul DAP FORTRAN (ICL 1979 a). Totuşi, aceste lim- 
baje au tins să exprime paralelismul sistemului hardware, lăsînd programa- 
torului sarcina unei încărcări ridicate a procesorului. De aceea, pot fi consi- 
derate limbaje de nivel scăzut, specifice maşinii. Viitorul standard FOR- 
TRAN, FORTRAN 8X (ANSI 1985) cuprinde extensii care vor permite 
manipularea oricărui masiv ca o structură paralelă de date. Această. propu- 
nere este binevenită, deşi apare cu întirziere şi incompletă; totuși, va 
permite programatorului să exprime structura și paralelismul inerent unui 
algoritm, mai degrabă decît cele ale sistemului hardware. Vom trata acest 
standard ulterior în această secțiune. 


Folosind paralelismul structural, programatorul poate folosi, virtual 
nelimitat, paralelism pentru exprimarea unui algoritm. Limbaje generale 
complete de acest tip permit tratarea structurilor de date ca obiecte asupra 
cărora se pot executa operaţii paralele. Poate fi interpretat ca o alocare a 
unui procesor virtual la fiecare element al structurii de date (de exemplu, o 
linie a unei matrici), sau implicit printr-o. construcţie condiţională a limba- 
jului (ca WHERE în: cazul FORTRAN 8X). Compilatorul, sau sistemul, 
în faza de execuţie, va aloca procesoare virtuale procesoarelor reale din 
sistem. 
Ideea paralelismului nelimitat poate deveni stinjenitoare în cazul 
abordării pe bază de procese, unde overhead-ul creerii multor fluxuri de 
instrucţiuni poate fi mai mare decit volumul propriu-zis de lucru. Atit la 
paralelismul structural cît şi al procesului, în faza de compilare se poate 
realiza o transformare de la paralel la secvențial pentru o anumită arhi- 
tectură, pentru a optimiza performanța. Totuși, în cazul paralelismului pro- 
cesului, transformarea nu este atit de directă și este improbabil ca un sistem 
să realizeze acest lucru în faza de execuţie. În cazul paralelismului structurii 
de date, transformarea este simplă, numai o ordonare a seturilor de operaţii 
similare. Mai mult, orice ordine impusă poate optimiza modurile de acces 
la memorie (Jesshope 1984). Este adevărat că necesarul de memorie poate 
fi mare, datorită necesităţii de a executa operaţiile ca şi simultan..De exem- 
plu, expresiile complexe cu masive vor necesita spaţii de memorie tempora- 
ră. Optimizările, ca şi cele folosite pentru vectorizare pot reduce necesitatea 
de a corespunde cît mai mult paralelismului sistemului hardware ţintă. 


4.3.1. Construcții de tip masiv 

Vom lua în considerare un număr de construcţii care pot fi folosite 
pentru exprimarea paralelismului structurii prin utilizarea masivelor. Se 
bazează pe limbajul FORTRAN, dar sintaxa nu reflectă cu necesitate o 


implementare în curs, sau propusă. Se încearcă deducerea unei extensii 


319 


consistente a unui limbaj, care permite exprimarea naturală a paralelis- 
mului structural al masivelor. Aceste presupuneri diferă în unele aspecte 
importante de cele propuse de Comitetul ANSI X3J3, care, printre altele, 
a luat în considerare extensii de tipul masiv pentru următorul standard 
FORTRAN (8X). Propunerile ANSI sînt tratate pe larg în $ 4.3.3. 

Datorită, nivelului mai înalt de abstractizare întîlnit la construcţia 
de tip masiv, în comparaţie cu un cod secvențial, ne-am aștepta să vedem 
o reducere a codului necesar pentru exprimarea unui algoritm dat. Se poate 
face analogie cu expresivitatea algebrei matricilor fată de cea a scalarilor. 
Prin urmare, orice construcţie inclusă în limbaj trebuie să reflecte acest 
lucru și să permită o exprimare concisă a operaţiilor între obiecte de date 
evaluate ca masive. APL implementează în mod extrem această filozofie, 
ceea ce determină obţinerea unor programe greu de citit. Totuşi, nu dorim 
să adăugăm construcţiilor secvențiale existente în mod simplist o sintaxă 
stinjenitoare. Cealaltă extremă poate fi ilustrată de PAR DO, propusă ca 
alternativă la instrucţiunea FORTRAN DO, caz în care se modifică ordinea 
de evaluare astfel ca fiecare instrucţiune să fie executată pentru toate va- 
lorile incluse, în DO, înainte de a trece la execuţia următoarei instruc- 
țiuni. Astfel, corpul buclei se execută în secvenţă, dar cu fiecare instruc- 
țiune executată, pentru întreg domeniul de valori indicat de DO, ca şi cum 
fiecare instrucţiune ar fi inclusă într-o buclă proprie. Sintaxa este confuză 
şi prolisă, și este mult mai natural de folosit bucla DO corespunzătoare 
structurii operanzilor masiv. 


(i) Masive ca obiecte elementare de date 


În acest caz masivele sînt considerate ca obiecte de date distinete, de 
un anumit rang (dimensionalitate). Prin urmare, orice referință la masiv va 
implica întregul masiv. Trebuie să remarcăm că această abordare nu elimină, 
posibilitatea, folosirii masivului ca o mulțime de obiecte secvențiale deoa- 
rece se poate folosi indexarea pentru reducerea rangului obiectului, prin 
selecție. Astfel, de exemplu, fiind dat un masiv tri-dimenrional A „se spune 
că are rangul 3, iar orice referinţă la numele A singur va implica o refe- 
rinţă la toate elementele în paralel. Se poate lua în considerare indexarea 
unei dimensiuni a lui A ca o operaţie de selecţie, care reduce rangul lui A cu 
1. Dacă toate dimensiunile sînt indexate, din A se selectează un scalar sau 
obiect de date de rang 0. În continuare se prezintă mai multe detalii privind 
mecanismele de selecţie. Trebuie să notăm că acest concept are un prece- 
dent în limbajele secvențiale ; de exemplu, în FORTRAN, referinţa la un 
număr de masiv în cadrul instrucţiunilor READ sau WRITE implică 
referinţa la toate elementele masivului. 

Deşi această abordare este cea mai generală, multe extensii de limbaje 
au făcut un compromis, în aceea că numărul de dimensiuni ale unui masiv, 
considerat ca obiect paralel, este limitat. Alte dimensiuni trebuie indexate 
în cadrul corpului programului, asigurîndu-se astfel mulțimi de obiecte 
masiv paralele cu un număr limitat de dimensiuni. Acest compromis s-a 
adoptat aproape exclusiv la masivele de procesoare, unde numărul de 
dimensiuni care pot fi referite în paralel corespunde dimensiunii şi formei 
sistemului hardware. Are avantajul diferenţierii acceselor paralele şi sec- 
venţial întîlnit la memoriile masivelor de procesoare, dar gi derprantapi 
dependenței de maşină, şi deci, a lipsei de portabilitate. . 
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Exemple ale acestei soluţii le întilnim la CED (Stevens 1975), GLYP- 
NIR (Lawrie et al 1975) și ACTUS (Perott 1979), toate limbaje propuse sau 
implementate pentru ILLIAC IV, CFD și GLYPNIR manipulează masive 
de 64 elemente cu o dimensiune, care corespund masivului de procesoare 
de la ILLIAC.AOTUS este mai general, dar implementarea originală de pe 
ILLIAC IV permitea, referirea în paralel numai a unei dimensiuni a unui 
masiv PASCAL. Un alt exemplu poate fi întîlnit la DAP FORTRAN (ICL 
1979), unde pot fi referite în paralel fie prima, fie primele două dimensiuni 
ale unui masiv. Din nou, cele două dimensiuni trebuie să corespundă dimen- 
siunii DAP. Atît DAP FORTRAN, cît şi CFD sînt tratate în § 4.4. 


(ii) Selecţia din obiectele masiv 


Se presupune că un masiv este definit ca mai sus, ca un obiect paralel 
de date și că mecanismele ce indexare sau tehnicile de selecţie reduc rangul. 
Astfel sub-setul de obiecte masiv care pot fi la rîndul lor obiecte paralele 
masiv, poate fi manipulat în cadrul limbajului. Există multe tehnici pentru 
realizarea, selecţiei, dintre care unele pot avea semnificaţii conflictuale. 

Selectarea obiectelor cu rang redus. Acest mecanism este probabil cel 
mai important deoarece 2: sigură compatibilitate în sens descrescător cu 
limbajul secvențial de bază. În ferma, cea mai simplă este echivalent in- 
dexării din limbajele secvențiale. Diferența constă în aceea că fiind dat 
un obiect masiv de rang n, să spunem, toate obiectele masiv cu rang redus 
sint tot elemente atomice ale iimbajului. De exemplu vectorii linie, vectorii 
coloană, ca şi scalarii sint obiecte atomice valide, selecții dintr-un masiv 
bi-dimensional sau matrice. Vectorii linie sau coloană se selectează, prin 
indexarea unei dimensiuni a masivului, iar scalarul prin indexarea ambelor 
dimensiuni ale masivului. Astfel, în FORTRAN, fiind dat un masiv sau 
matrice A bi-dimensional NxN, atunci 

(a) A va referi matricea, întreagă, 

(b) A(1,) va referi linia I aiui A (un vector), 

(c) A(,J) va referi coloana J a lui A (tot un vector), 

(d) A(I, J) va referi, cum era de aşteptat, elementul I, J al lui A(un 
sealar ). 


La unele limbaje, sintaxa acestui mecanism de selecţie este accentuată, 
cu un simbol special, de obicei un asterix, plasat în poziţia unde lipseşte 
indicele. Acest simbol poate fi interpretat ca un selector al întregii dimen- 
siuni. Astfel, exemplele anterioare devin : 

(a) A sau A (+, +) 

(b) A (I, +) 

(e) A(s, J) 

Datorită eleganței și simplităţii sale, se va folosi eliminarea indicelui 
în tcate exemplele ce urmează, dacă nu te va folosi o sintaxă specifică. 

Selectarea unei game de valori. Adesea, va fi necesar să selectăm o gamă 
de valori corespunzătoare unui indice. Astfel, în loc de a reduce rangul unui 
obiect masiv, se reduce dimensiunea sa. Gama trebuie să specifice , prin 
urmare, o submulțime a domeniului întregii dimensiuni. Aceasta se poate 
defini, ca în controlul buelei, de o pereche sau triplet de întregi sau expresii 
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cu întregi. Se va specifica un index de start, un index opțional, corespun- 
75% or pasului şi un index limită, folosit ca selector în una din dimensiunile 
masivului. Astfel, pentru aceeaşi matrice N x N, A(2: N—1 ;2:N—1) va 
selecta, primele trei elemente ale liniilor impare. În ambele exemple, se 
foloseşte sintaxa start : (pas) limită, unde dacă se omite, pasul se presupune 
a ti unitatea. Aceste mecanisme de selecție cu reducerea rangului sau a dome- 
niului sînt ilustrate în fig. 4.2. pentru un masiv 8 X 8. 


Selecţia cu folosirea masivelor în- a 
tregi. Mecanismele de selecție simple i = E 
descrise mai sus au caun caz particular 5 | 


= x x 


mult mai familiară indexare secven- 
țială. Se poate afirma că acelaşi este 
adevărul şi pentru indexarea cu masive ai 
de întregi și că este un caz special al să ini 
indexării indirecte întilnită în limbajele Pe a 
secvențiale. Totuşi, există cel puţin două ză 
moduri în care poate fi folosită inde- LEA, x 
xarea indirectă, şi ambele pot fi repre- A, 5) 
zentate cu aceeași sintaxă. 

O interpretare corespunde unei or- 
ganizări liniare sau unui produs carte- 
zian a unor structuri liniare peste mai 
mult de o dimensiune. Se prezintă acest 
lucru în continuare, prin folosirea unor 
construcţii secvențiale, unde IV şi JV sînt 
vectorii întregi care definesc structurile : 

(a) AQ, IV(I)) 

b) AVO), IWD) Fig. 4.2 Un exemplu de selecție dintr-un 


Aici (a) reprezintă o structură liniară masiv 8x8: (a) selecţii prin reducerea 
ce corespunde celei de-a doua dimen- rangului; (b selecţii sai reducerea do- 
siuni a lui A, iar (b) reprezintă produsul ciuci 


xxx 
= x x 


pn 
kais 


je 


7 


m x 


= n x xn 
P 
= xxx 


LAEE 


cartezian al structurilor liniare în ambele dimensiuni ale lui A. Se poate 
vedea că dacă s-ar aplica în paralel, cu elidarea indicelui 

(a) A(IV) ci 

(b) AUV, JV) 
atunci masivele rezultate vor avea același rang cu A, dar vor avea dimen- 
siunile selectate după dimensiuni corespunzător vectorului întreg. Struc- 
turile produse pot conține copii ale unui aceluiași element ; totuşi, valorile 
elementelor vectorului care defineşte noua structură, trebuie să se afle în 
domeniul de definiţie al dimensiunii respective. Astfel, dacă A este un masiv 
N x N şi IV şi JV sînt vectori cu domeniul M, atunci toate elementele lui 
IV şi JV trebuie să fie mai mici sau egale cu N, (a) va produce un masiv 
x x M iar (b)un masiy M x M. Ambele sînt structuri arbitrare cu elemen- 

edin A. 

Cealaltă interpretare a acestei construcții se referă la o proiecție pe 
una sau mai multe dimensiuni ale unui masiv. Aceasta este o operație de 
reducere a rangului, prezentată în continuare folosind construcții secven- 
ţiale similare. JV este în acest caz un vector întreg, iar JM un masiv întreg, 
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ambele definind o zonă din masiv care este proiectată pe dimensiunile 
rămase : 

(6) AC, JVI) 

(d) B (I, J, JMC, I)) 
Aici este important de notat că vectorul index JV şi masivul index JM 
au aceeaşi formă cu zona de masiv pe care o selectează şi sint indexate în 
acelaşi mod. Dacă se foloseşte eliminarea indicelui, nu se poate diferenţia 
între cele două moduri de indexare indirectă, deoarece (c) şi (d) produc 
următoarele construcţii paralele 

(c) AGIV) 

(d) B(,, 3M) 
Se poate vedea că sintaxa construcției paralele definită de (c) este identică 
cu cea definită de (a), dar ele au semnificații complet diferite. Dacă A este 
un masiv N x N, iar Bun masiv N x N x N, atunci JV, trebuie să fie un 
vector cu N elemente, iar JM un masiy N x N. Ambele reduc rangul masi- 
velor pe care le indexează ca și cum ar fi scalari ; totuşi, felia (slice) obținută 
nu este lamilară ci proiectată pe dimensiunile elidate. Din nou, valorile 
elementelor masivului index trebuie să fie mai mici sau egale cu domeniul 
corespunzător dimensiunii de unde se selectează, Aceste două tehnici sînt 
ilustrate în fig. 4.8, pentru un masiv 4 x 4. 

Se va arăta mai tîrziu că vari- 


anta de structură obținută prin A -fe b c d UA ERE 
proiecție, cînd se foloseşte împre- etgh 

ună cu altă construcție, poate e- înalt A EAI EDC BEI 
mula tehnica, generală de mapare. lan op 


Alegerea evidentă a semanticii 
pentru această construcţie este, 
prin urmare, cea a unei proiecții. 


Această convenţie este adoptată la AU) 

toate exemplele ulterioare, cînd nu ALIVI 

se fac alte menţiuni. Această teh- 

nică de selecţie poate fi folosită m sasi 
împreună cu alte tehnici de inde- AA fa bed 
xare pentru alte dimensiuni ale [Abic dă 
masivului, inclusiv alte masive A 
index. Totuşi, toate masivele inde- îs Ai 
xate trebuie să se conformeze TFE 
formei masivului produs. Astfel, AETR] 
TABLE („1,J,K) este o selecție cică si 
validă din TABLE, chiar dacă I, J e E 


ai K sint masive întregi. În general, Fig. 4.3 Un exemplu de selecţie dintr-un masiv 
I,J şi K trebuie să fie scalari în- A folosind vectori întregi (IV și JV): (a) se- 
tregi, fie masive întregi care se con- lectia prin proiecţie; (b) o aplicaţie generală 
formează structurii produse (de după una și, apoi, două dimensiuni ale masivului 
exemplu, acele dimensiuni în care este implicată gama întreagă). Con- 
ceptul de conformitate este tratat mai pe larg ulterior. 

Selecţie folosind obiecte masiv boolean, Un alt mecanism de selecţie 
care se poate aplica obiectelor „masiv foloseşte masive sau expresii logice. 
Selecţia, se face conform valorii de adevăr a selectorului logic. Astfel, ele- 
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mentul i poate fi selectat; dintr-un masiv uni-dimensional prin indexarea 
lui cu un masiv boolean uni-dimensional al cărui element i are valoarea 
„adevărat”. Desigur, masivele trebuie să fie conforme. Similar, s-ar putea, 
folosi același masiv boolean pentru selecţia fie a unui vector linie sau co- 
loană dintr-un masiv sau matrice bi-dimensională. Aceste exemple apar în 
fig. 4.4. 

Toate exemplele de mai sus folosesc această formă de indexare ca un 
mecanism de selecţie cu reducerea rangului. DAP FORTRAN (vezi ă 4.3.2) 
insistă asupra acestei restricţii. Totuşi, este 
posibil, deşi nu este de dorit, de extins 
această, formă de indexare astfel încât să 
determine reducerea rangului. În acest 
caz, vectorul boolean ar area un număr de 
elemente cu valoarea adevărat, iar se- 
lecţia va produce un obiect cu acelaşi rang, 
dar numai cu acele elemente ce corespund 


i 
valorii „adevărat”. Se pot folosi tehnici xy să i 
similare pentru actualizarea selectivă a iba că Doe | 
unui obiect masiv. Și aceste elemente se px lalea aa 
: s, 5. > | |x at 
vor discuta în detaliu ulterior. DERA A A) A A A tă 
Indezarea cu deplasare. Strict vor- Ai LV) 


ping, nu este un mecanism de În ut TAES 
uşi, deoarece este adesea implementat DO] 
ca o tehnică de indexare, am inclus-o în PE N So 
această secțiune. Este un mecanism de ali- 
njere folosit pentru deplasarea sau rotația Fig. 4.4 Un exemplu de selecţie 
obiectelor masiv după o direcție dată. Un dintr-un masiy 6x8, folosind un 
exemplu bun de folosire îl oferă tehnicile TARRO dale SNN 

de relaxare a caroiajelor (vezi $ 5.6.1), unde fiecare punct al caroiajului 
este actualizat; pe baza unei medii a punctelor vecine. Cazul cel mai simplu 
este cînd punctul ia valoarea medie a celor 4 vecini mai apropiați după 
două dimensiuni. Cu sintaxa folosită de DAP FORTRAN, se poate serie : 


A = (AC ,) + A(—,) AG) + AGA 


Se actualizează simultan toate elementele lui A, pe baza elementelor vecine, 
selectate prin deplasarea masivului la stînga (+) și dreapta (—) după 
fiecare dimensiune. Pentru valorile interioare ale lui A, codul secvențial 
echivalent este DO 10 I =2,N — 1 


DO 10 J = 2, N—1 

10 ANEW (I, J)=(A@ +1, J)+A(—1, J)+ A, J3—1)+ A 
IA 1))/4 ş 

DO 20 I =2, N —1 

DO 20 J =2, N —1 
Modul cel mai natural de scriere secvențială ar fi prin înlocuirea lui ANEW 
(I, J) en A(I, J) în bucla 10. Totuşi, aceasta este recursivă şi la evaluare 


ar folosi atit valori vechi cit și noi ale lui A, definite prin ordinea din buclă. 
Specialiștii în analiza numerică vor recunoaşte diferența, dintre relazările 


y LV) 
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Gauss-Seidel și Jacobi. Se va vedea în $ 4.3.3 că FORTRAN 8X propune 
implementarea acestor deplasări cu funcţii şi nu cu tehnici de indexare. 
În cazul programelor secvențiale, valorile la margine vor fi calculate, 
în mod normal, separat ; în cazul construcţiilor paralele acest lucru se poate 
face prin considerarea unei anumite geometrii a masivului. De exemplu, o 
dimensiune poate fi consi- - 
derată ciclică, în care caz 
deplasările se fac ca rotații, 
sau planară, cînd deplasă- 
rile sînt fără sfirșit, cu 
transferul corespunzător 
al datelor la margine. 
fig. 4.5 se prezintă combi- 
naţii ale acestor geometrii 
pentru un masiv bidimen- 
sional. Se pot observa su- 
prafeţele topologice pla- 
nară, cilindrică şi toro- 
idală. 

Evident sintaxa exem- 
plului anterior limitează Fig. 4.5 Geometriile topologice posihile în două dimensiuni 
deplasările la o poziție în a pa femele ALR aae peur EEES 

i i i masivului: (a mard ; cilindric: xa N—5); 

si dos iei Pre cilindrică (axa E—V); (d) toroidală. 

-+ şi — creează o selecție corectă din A. Limbajele paralele încorporează 
deplasări cu mai mult de o poziție prin folosirea simbolului selector 
pentru întreaga dimensiune, caz în care A(+ — N) deplasează A după 
prima dimensiune, N poziții la dreapta. 


iS} 


(iii) Expresii masiv și conformitate 


Odată definite în cadrul unui limbaj masivele ca obiecte de date, este 
necesar să se definească reguli de utilizare a lor în expresii. Regula funda- 
mentală priveşte modul de aplicarea operatorilor elementelor individuale 
ale obiectelor masiv. Cind se combină masive cu operatori artimetici, relațio- 
nali sau logici, se presupune că elementele corespunzătoare ale celor două 
masive se combină cu același operator, ca şi cum operaţia s-ar executa si- 
multan. Operatori unari similari se aplică tuturor elementelor unui obiect 
masiv. Rezultatele obţinute sînt tot obiecte masiv. Odată definite operaţiile 
dintre masive, se pot construi expresii ca în limbajele secvențiale, prin folo- 
sirea regulilor acceptate privind tipul, ordinea operatorilor și plasarea pa- 
rantezelor. Cele mai importante consideraţii sînt regulile privind dimensi- 
unea, şi forma, obiectelor masiv ca operanzi în cadrul expresiilor. Ele sînt 
fundamentale pentru orice limbaj. 

Atit timp cît două obiecte nu au același număr de elemente, definiţia 
operaţiei elementare cu masive devine ambiguă. Această situaţie poate fi 
evitată prin definirea modului în care se suprapun operanzii masiv, împre- 
ună cu o valoare dată elementelor nedefinite. De exemplu, operanzii masiv 
pot fi aliniaţi prin primele sau ultimele lor elemente, liniar sau dimensiune 
cu dimensiune, Elementelor nedefinite li se pot da valoarea unitate sau 
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nulă, sau pot îi lăsate nedeiinite etc. Evident, situaţia aceasta nu este de 
dorit. 

Alternativa este de a impune perechii de operanzi dintr-o expresie să se 
conformeze. Această noţiune se defineşte aici prin aceea că operanzii trebuie 
să aibă acelaşi rang și același domeniu pentru dimensiunile corespunză- 
toare. Prin limitarea expresiilor în acest mod, este posibil să se exercite un 
control mai riguros asupra apariției erorilor, atît la compilare, cît şi la exe- 
cuție. Exemplul îl oferă produsul matricelor de la sfîrşitul acestei secţiuni, 
Odată definită restricţia, devine necesar să se introducă construcţii care să 
asigure posibilitatea comprimării, expandării sau modificării formei masi- 
velor, astfel încât să fie conforme. În acest mod, sarcina de a specifica exact 
cum dorește să se conformeze masivele va reveni programatorului. Teh- 
nicile de indexare vor reprezenta mecanisme utile, în acest sens ; altele pot 
fi asigurate fie ca operatori suplimentari, fie ca funcţii ale limbajului. 


(tw) Constrîngerea masivelor pentru a se obține conformitate 


Se va folosi o notație funcţională pentru a ilustra unele din operaţiile 
necesare pentru a constringe masivele să se conformeze. Funcţiile prezen- 
tate aici vor fi necesare într-o anumită formă în orice limbaj care impune 
condiția de conformare a operanzilor masiv. 

Funcții de reducere a rangului. S-a arătat că rangul unui obiect masiv 
poate fi redus prin indexare sau selecţie. Un alt mod în care poate îi redus 
este prin folosirea repetată a unui operator binar între elementele unea 
sau a mai multor dimensiuni ale masivului. Deși acest lucru se poate serie 
ca o secvenţă de operaţii, nu ar oferi posibilitatea folosirii paralelismului 
pentru reducere. De exemplu, suma a N elemente se poate calcula în log, N 
paşi în paralel (vezi $ 5.2.2). Tab. 4.1 prezintă o listă a operaţiilor de redu- 
cere cele mai obişnuite. Fiecare are doi parametri, masivul şi dimensiunea 
după care se execută reducerea. Alte funcţii ar trebui să permită reducerea, 
după toate dimensiunile masivului. Funcţii similare sînt date în APL ca 
operatori compuși unde €/reprezintă reducerea cu operatorul binar €. Sinta- 
xa acestor operaţii compuse este descrisă de Iverson (1979), 

Funcții de creștere a rangului. Adesea este necesar să se crească rangul 
unui obiect pentru obținerea conformităţii. Utilizarea cea mai frecventă 
este în operaţii între scalari şi masive. De obicei, în calculul paralel se folo- 
sește termenul de emisie (broadcasting), deoarece se emite o copie a scala- 
rului ca al doilea operand la fiecare element al masivului. Această acţiune 
poate fi interpretată, mai general, ca o constringere a scalarului, prin repe- 
tiţie, la un masiv conform. Acest exemplu particular este lipsit de ambigui- 
tate şi poate fi pus în practică prin relaxarea regulii care impune contor- 
marea operanzilor, permiţind scalarilor și masivelor să fie folosiţi liber în 
expresii. 

În cazul mai general acest lucru nu mai este adevărat. De. exemplu, 
se pot executa operaţii între vectori şi matrici fie prin repetarea vectorului 
ca o linie sau coloană, pentru a obţine conformitate cu matricea. În general, 
există "C, moduri în care un masiv „pătratic” r-dimensional poate fi cons- 
trîns la un masiv „pătratic” n-dimensional, unde 


n! 
ri(n—r)!: 


n Pt 
r= 
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Tabelul 4.1 Funeţii de reducere pentru extensii masiv ale limbajului FORTRAN. A este intreg 
Sau real, B este logic. Trebuie să se asigure că aceste funcţii Se pot aplica după toate dimensiunile, 


probabil prin omiterea celui del-al doilea parametru. 


Funcţia | Operația | Reducere 
SUM (A,k) + Y A Gree o cei) 
PROD (A, k) x ŢIA (ES PERAN. 
AND (V, k) A and Bi, dia 
OR(B, k) y org (R, masa 5) 
MAX (A,k) > ia 17T, ME ORERE: 
MIN (A,k) < min (A duce > say) 
k 


Dacă masivele au domenii diferite pentru fiecare dimensiune, numărul 
posibilităților se restringe, sau chjar dispare. Este o idee bună de a folosi 
constringerea ca o operație explicită sau apel de funcţie, deoarece.se poate 
asigura veriticarea erorilor. Din nou, se poate folosi exemplul înmulţirii 
matricelor. Pentru orice constrîngere prin repetiţie este necesară numai o 
funcţie. Astfel, de exemplu, 


XPND(A, k, N) 


este un masiv format prin repetarea lui A, de N ori după dimensiunea k. 
De exemplu, dacă V este un vector cu N elemente atunci 


XPND(V, 1, N) 


este formată prin repetarea lui V drept linii ale matricei. 

În contmuare se poate realiza orice constringere prin folosirea repe- 
tată a acestei funcţii simple. 

O construcție pentru modificarea formei. O altă construcţie care poate fi 
necesară pentru obținerea conformităţii este modificarea conceptuală a 
formei structurilor de date. Uneori sînt necesare operaţii între masive de 
dimensiuni diferite, dar cu acelaşi număr total de elemente. Algoritmul 
transformatei Fourier rapide ($ 5.5.2) este un exemplu bun, deoarece este 
mai simplu să se prelucreze un masiv liniar cu N elemente ca o variabilă 
masiv tri-dimensională. Un program de la sfirşitul acestei secţiuni esem- 
plifică acest; lucru. 

Cu cît se pune un accent mai mare pe forma masivelor, care trebuie 
să se conformeze în expresii, este mai important de definit forma obiectelor 
masiv trecute subprogramelor. De exemplu, un parametru şi un argument 
ar trebui să se conformeze numai dacă forma sau dimensiunea acestor 
obiecte ar fi aceeaşi. Astfel, la FORTRAN, un parametru masiv pentru un 
subprogram trebuie să definească submasivul principal al argumentului 
transmis. În acest mod se poate selecta, în subprogram un subset parame- 
trizat; al domeniului fiecărei dimensiuni. « 
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Dacă instrucţiunea DIMENSION poate defini un domeniu dinamic în 
cadrul subprogramului, este necesară c instrucțiune care să schimbe forma 
masivului în raport cu declarația inițială. Pentru claritate folosim instruc- 
ţiunea MAP, care are formatui unci instrucțiuni DIMENSION, dar care 
poate fi considerată executabilă, deoarece defineşte o restructurare a unui 
obiect masiv declarei. Trebuie să se presupună că această aplicaţie este 
bijectivă pentru a o tine o definiţie exactă. 

De exemplu, dacă considerăm lista dimensiunilor na, «ae  Dp 8 Obiec- 
tului masiv j 

Aha e e e, Np) 
atunci această, listă definește forma și structura lui A pentru un set ordonat 


P 
de ji n, locajii de date (care nu trebuie să fie în mod necesar contigue). 
k=1 
Un element din ascastă multime este localizat cu ajutorul unei liste index, 
i,, .. vip care este folosită pentru generarea funcției fp, care produce pozi- 
ţia elemeniului în mulțime : 


În = «e în) = i + Dalia — 1) +... + II nu(ip — 1) 
„o kel 
Instrucţiunea MAP? va. redefini această funcţie pe aceeasi mulţime ordo- 
nată de elemente, sub forma unei liste în instrucțiunea MAP, m, . . . , Ma 


MAP A (m... m) 


Astfel se redefineste forma lui A, astfel că pe baza unei liste noi index, 
i + «+ 9 I Se selectează un element cu funcția fy : 


-1 
falin- i) =h Hm DH mai 
- ki at 


Se poale vedea că aplicaţia nu este complet definită dacă nu se respectă 
egalitatea 
p 


In: =I[m 


Trebuie să observăm că fp nu se definește pe o mulțime contiguă de 
locaţii de memorie. Motivul este că mulţimea ordonată de elemente pe 
care este definită În, poate reprezenta tot o modificare (o reducere a dome- 
niului) a unui masiv transmis unui subprogram. 

La un calculator serial, aceste funcţii ar îi folosite mai degrabă pentru 
calculul adreselor. Totuşi, la, unele mașini paralele, reorganizarea datelor 
poate îi necesară pentru asigurarea paralelismului. 

in continuare se prezintă un e xemplu de utilizare a instrucţiunii MAP : 
modifică forma unui masiv liniar, în două dimensiuni. 


DIMENSION A(N) 


MAP A(N/2, 2) 


39 
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Se poate vedea că dacă N este impar, reorganizarea lui A nu este complet 
definită. Ultimul element al lui A nu este definit în MAP, datorită trunchie- 
rii rezultatului împărțirii a două numere întregi. 


(v) Indexarea expresiilor 


Prin introducerea paralelismului în limbaj, şi expresiile au devenit 
obiecte masiv, cu o formă dată. De aceea, este de dorit ca selecţia, dintr-o 
expresie să se facă cu aceleaşi tehnici de indexare descrise anterior. Este 
probabil ca selecţia să fie folosită cu forma funcţională, şi prin evitarea ulte- 
rioară, a atributelor ne-necesare la variabile temporare. Sintactic, selecția, 
poate fi executată prin adăugarea la sfirșitul expresiei a unei perechi de 
paranteze cu selectorul necesar. În acest mod, expresia este tratată exact 
ca un obiect masiv. Primul program este un exemplu în acest sens. 


(vi) Atribuirea masivului 


Într-o anumită fază, expresia masiv trebuie atribuită unei variabile 
masiv. Atribuirea, ca orice altă operație, este elementară și, folosind ace- 
leași argumente pentru evaluarea expresiei, rezultatul trebuie să fie con- 
form variabilei masiv. Din nou se poate relaxa conformitatea pentru asi- 
gurarea unei expresii scalare la o variabilă masiv, deoarece aceasta se poate 
realiza, fără ambiguităţi. Pentru a realiza conformitatea la faza de atribuire, 
se pot folosi toate mecanismele de selecţie descrise anterior, pentru actua- 
lizarea selectivă a unei variabile masiv. 

Astfel, de exemplu, se poate atribui selectiv o expresie vectorială unei 
linii sau coloane a unei matrici cu 


A(I,) = <expresie vectorială conformă > 
sau 
A(,d) = <expresie vectorială conformă > 


O tehnică mai puternică este atribuirea selectivă cu un masiv sau expresie 
booleană. Aceasta poate de fapt înlocui atributele condiţionate. Uneori 
tehnica este denumită mascare, deoarece masivul boolean poate fi consi- 
derat ca o mască care controlează atribuirea. De exemplu, se poate genera 
valoarea absolută a lui A prin inversarea numai a elementelor negative : 


A(A.LT.0) = — A 
(oii) Exemple de programare 


Folosim acum construcțiile de mai sus pentru a ilustra modul cum 
codul paralel poate reprezenta o interpretare concisă și uşor de înţeles a 
unui algoritm. Se folosesc trei exemple : problema generală a reorganizării 
după o dimensiune, înmulţirea matricelor și algoritmul pentru transfor- 
mata Fourier rapidă. 

Reorganizarea generală. Această problemă poate fi ilustrată limpede 
folosind selecţia unui cuvînt sau frază dintr-un alfabet. Astfel, fiind 
dat un masiv uni-dimensional de caractere, ALPHABET (27), care 
conţine caracterele A la Z şi blanc, dorim să selectăm un cuvint sau 
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frază, WORD(N), din alfabet cu un masiv întreg INDEX(N) care indică, 
literele corespunzătoare din alfabet. | 

Să ne reamintim că indexarea indirectă care se poate realiza este de tim- 
pul proecţiei sau reducerii rangului și nu de forma generală cerută de acest 
exemplu. Prin urmare, tehnica constă în expandarea alfabetului într-un 
obiect bi-dimansional prin N repetiţii. Apoi, se poate selecta cuvîntul 
prin indexarea primei dimensiuni, folosind cele N elemente ale INDEX- 
ului. Se obține programul de mai jos. Structurile manipulate sînt ilus- 
trate în fig. 4,6. 

FUNCTION WORD (ALPHABET INDEX,N) 

CHARACTER ALPHABET (27), WORD(N) 

INTEGER INDEX(N) 

(0 

WORD=XPND (ALPHABET, 2, N) (INDEX,) 

RETURN 

END | 
Înmulțirea matricelor. Al doilea exemplu este înmulţirea matricelor. Se 
prezintă corespondenţa dintre notaţiile matematice şi de programare. De 
asemenea, în acest exemplu, cele NLM înmulţiri sînt exprimate în paralel, 
fără pierderea generalității algoritmului. 


XPNCUA,3,LI- 


XPND{B,1,N) 


P=PMATMUL + 


YIN XE <C uav 
NI XE <C am 
NA XE << Cam 

< 

Na XE << Cam 


w 
x 


e ——h 


Fig. 4.6 Structurile de date Fig. 4.7 Structurile de date manipulate în- 
manipulate în exemplul pro- „exemplul programului de înmulțire a ma- 
gramului de aplicaţie gene- tricelor. 

rală, 
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Produsul se obţine prin expandarea, în prima fază, a lui A şi B sub forma 
unor obiecte tri-dimensionale (fig. 4.7). La început se repetă A ca primele 
două dimensiuni ale structurii, apoi se repetă B ca ultimele două dimen- 
siuni, Se poate observa că în ambele cazuri se apelează XPND care produce 
masive conforme (de exemplu, ambele au forma (N, M, L)). Apoi, se reduce 
produsul acestor masive prin sumarea corespunzătoare dimensiunii din 


FUNCTION MATHULT <A, B,N,L,M) 
REAL A(N,M, BEM,b?, MATMULTIN,L) 


ej; 
€ THE MATEMATICAL DESERIPTION OF THE PROBLEM 15 GIVEN FOR L1+1,..,N 
C 1: OND T3 = 1pessaly BY 
€ m 
i U MATMUL TI. (11,13): "A ABR 
S kis "#1112 12,15 
ef. ; 
5 4 12=1 
t THE CODE IS VERY SIMILAR 


fe] 


MATMULE e. SUM XPND (A, 3, L) EXPEND (8. 14N) 2 
RETURN 
END 


mijloc (pentru toate subspaţiile M cu forma (N, L)), obținîndu-se rezul- 
tatul aşteptat, o matrice N x L, atribuită variabilei MATMULT. Să 
remarcăm că sub această formă, cînd matricele nu sînt pătratice, orice 
eroare în specificarea, selectorilor dimensiunii indicate (1, 2 sau 3) va 
produce o eroare de compilare, deoarece fie înmulţirea, fie atribuirea nu 
va fi conformă. 

Această expresie a algoritmului implică lipsa secvenţierii (care este 
lăsată, acum în sarcina compilatorului), astfel că plecînd de la acest cod se 
pot obţine toate cele patru variante ale algoritmului ($ 5.3.1 — $5.3.4). 


(iii) Transformata Fourier rapidă 

În § 5.5.2 se deduc ecuațiile recursive care definesc transformata Fou- 
rier rapidă sub forma unei secvențe de transformate parțiale peste o struc- 
tură bi-dimensională variabilă (ecuația (5.88)). De asemenea, distanța 
dintre elementele acestor ecuații poate fi considerată ca a treia dimensiune 


de lungime 2, care înjumătăţește domeniul primei dimensiuni. Se obţine o 
transformare simplă de la ecuaţia (5.88) la ecuaţiile : 


for sequence l = 90,1,...,q — 1 
for all k = 1,...42? 

for all î = 1,...m/2™ 
tan B (a 
. fG, 1k)= fi, 1 k)+ oj f (i2,k) 
t+), D, rta 

i- F (i2,k) = JUR) — oz J (i,2,k) 

en 


end 
repeat 
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Acum, exprimarea acestor ecuaţii cu ajutorul construcțiilor paralele este o 
transformare banală, folosind o funcție RECUR (ca în fig. 5.13, 5.14 şi 
5.16). Funcţia realizează un pas al secvenţei corespunzătoare lui 1. 


FUNCTION RECURIF,W, LN) 
COMPLEX F(N) ; WIN) ; RECURIN) 
IZL = 2%%L ; 
N2L = NZI2L z5 
` N2Li = N2L/2 $ 
MAP FAN2L1,2412L), W(N2L, 12L), RECUR(N2Lí, 2,12.) 
Fi „2, ) = XPND(M(1,),1,N2L10)&F(,2, ) a... 
RECUR pi, ) S F(C, 9) +F(,2, ) 
RECUR( „2, ) =Ft 1, 2) —Ft(,2,) 
RETURN s 
END 


Acest cod, folosit cu o secvenţă de apel care atribuie RECUR la F, produce 
transformatele. Este folosit numai spațiul de memorie temporar 'definit de 
funcţia ce foloseşte ca argumente masive și produce valorile transformatei 
în ordine inversă. Lăsăm ca un exrcițiu cititorului să reprogrameze funcția 
pe baza diagramei din fig. 5.12. pentru a se obține rezultatele în ordinea 
naturală. 

Trebuie din nou subliniat că această descriere a algoritmului încorpo- 
rează toate cele trei scheme descrise în $5.5. Schema A se obține dacă com- 
pilatorul secvenţiază ultima dimensiune a masivelor, iar schema B dacă 
compilatorul secvenţiază prima dimensiune a masivelor. Dacă, totuşi, 
maşina este suficient de paralelă, atunci fără a se secvenţia nici o dimensiune 
se produce schema paralelă (PARAFT) ($ 5.5.4). În acest mod se poate 
genera cu un compilator adecvat cod mașină eficient pentru un spectru 
întreg de calculatoare cu n,/; variind de la 1 la N. 


7 


4.3.2, DAP FORTRAN — o soluție eu restrieţii 


DAP FORTRAN (ICL 1979 a, b) este un limbaj dezvoltat, aşa cum 
sugerează şi numele său, pentru ICL DAP. Acest limbaj este singurul de 
nivel înalt implementat pe calculatorul DAP (vezi $3.4.2) și continuă să 
fie folosit şi de mini-DAP (vezi $ 3.5.2). Acest limbaj, deşi constrînge masi- 
vele de date să aibă dimensiunea și forma masivului de procesoare ţintă, 
are contribuţii importante la dezvoltarea ulterioară a standardului FOR- 
TRAN pentru masive de procesoare. Impiementează multe din construc- 
țiile descrise în secțiunea anterioară, deşi limitate la obiecte masiv cu dimen- 
siunea 64 x 64 pentru DAP şi 32 x 32 pentru mini-DAP. De asemenea, 
limbajul este sursa mai multor funcții intrinseci orientaţe-masiv propuse în 
cadrul standardului FORTRAN 8X. 


(î) Obieete de date 


În DAP FORTRAN mâsivele sint declarate în modul obișnuit, folo- 
sind instrucţiunea DIMENSION SAU TYPE. Totuşi, vectorii sint decla- 
raţi cu prima dimensiune elidată, iar matricele cu primele două elidate. 
Acestea sint dimensiunile supuse restricţiilor, care iau la DAP mărimea de 
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N elemente pentru un vector și N X N pentru o matrice. De asemenea, se 
pot deciara mulţimi de obiecte, prin folosirea altor dimensiuni. 
DIMENSION V( ), VSET(,4) 
REAL M(,), MSET (,,4) 
Aceste exemple definesc un singur vector V şi o mulțime de vectori VSET, 
umati de o matrice M şi o mulțime de 4 matrici MSET. Dimensiunile care 
nu sint supuse restricțiilor sînt folosite numai pentru accesul secvențial 
şi corespund memoriei DAP. Detalii se găsesc în $ 3.4.2. Aceste dimensiuni 
sint considerate ca în standardul FORTRAN. 

Deoarece dimensiunile paralele sînt limitate de caracteristicile masi- 
vului DAP, obiectele de același tip vor fi conforme, Cînd, însă, se folosesc 
obiecte de tipuri diferite, trebuie folosite regulile de conformare. DAP 
FORTRAN permite transformarea scalarilor în tipurile vectorial sau ma- 
tricial şi posedă funcții care permit trecerea vectorilor la tipul matricial. 
Funcţiile MATR şi MATO formează matrici prin repetarea vectorului ca 
linii, respectiv coloane. 


(ii) Mecanisme de selecție 


Mecanismele de selecţie pentru dimensiunile supuse restricțiilor folo- 
sesc indici întregi, logici sau vectoriali, așa cum s-a prezentat în $ 3.4.2. 
Indexarea vectorială sau indirectă: poate fi aplicată ca proiecție peste toate 
liniile sau coloanele. Totuşi, această tehnică nu poate fi folosită pentru cele- 
lalte dimensiuni, deoarece ar necesita memorii indexate separate la fiecare 
PE, lucru care nu există. 

Selecţia, corespunzătoare dimensiunilor supuse restricțiilor este cu 
reducerea, rangului, cu excepţia actualizării selective (vezi $ 4.3. 1). Astfel, 
selecția dintr-o matrice produce fie un singur vector fie un scalar, iar selec- 
tia dintr-un vector produce întotdeauna un scalar. Nu există nici un meca- 
nism đe selecţie după domeniu, iar selecția logică trebuie să producă un 
rezultat unic. În continuare se prezintă exemple pentru aceste mecanisme 
de selecție, pentru următoarele declaraţii : 

REAL Tii, ), V( l 

INTEGER I J, VI( ) 

LOGICAL MU (), VL () 

M(I,) linia I din M, 

M(,J) coloana J din äi, 

M(I, J) elementul T, J din M, 

V(I) elementul I din V, 

M(VL,) linie a lui M, 

M(,VL) coloană a lui M, 

M(ML) eiement al lui M, 

V(VL) element al lui V, 

M(VI,) vector ce conţine (M(VI(I), 1) în elementul I 

M(VI, ) vector ce conţine M(I, VI (1)) în elementul I. 
În Be exemple, matricele sau vectorii logici trebuie să aibi, numai un 
element cu valoarea logică. TRUE., iar vectorul întreg Vi trebuie să aibă, 
toate eiementele sale în domeniul 1 la N. La DAP FORTRAN, indėxarea 
se poate generaliza prin acceptarea unor expresii iii aie în locul varia- 
bilelor din exemplele de mai sus. i 


333 


Se poate folosi ca operaţie de indexare- şi deplasarea, prin utilizarea 
simbolurilor + sau — în cadrul dimensiunilor supuse restricţiilor. 

V(+) deplasează V o poziţie la stinga 

V(—) deplasează V o poziţie la dreapta 

M(+,) deplasează M o poziţie la nord 

M(—,) deplasează M o poziţie la sud 

M(,+) deplasează M o poziţie la vest 

M(,— ) deplaseazăM o poziţie la est 

M(—+) deplasează M o poziţie la stînga, tratată ca un vector mare 

M(—) deplasează M o poziţie la dreapta, tratată ca un vector mare 


Deplasări cu mai mult de o poziţie se exprimă prin intermediul funcţiilor, 


(iii) Atribuirea masivelor 


Expresii indexate aflate în membrul sting al unei atribuiri specifică, 
ce selecţie din variabilă va fi actualizată. Atribuirea selectivă poate fi 
folosită pentru conformare ; de exemplu, o expresie vectorială poate fi atri- 
buită oricărui vector selectat dintr-o matrice. Sau, selecția poate fi folosită, 
la actualizarea unui domeniu de valori, cînd expresia și membrul sting sint 
conforme. În acest caz, selecţia indică numai care elemente vor fi modifi- 
cate. De exemplu, să considerăm indexarea cu o matrice logică sau un vec- 
tor logic : 

M(LM) = < expresie matricială > 

M(VL,) = <expresie matricială> 
În ambele cazuri, restricţiile plasate în membrul drept nu se mai aplică 
Matricea logică LM sau vectorul logic LV poate avea cel puţin un element 
cu valoarea logică adevărată. Astfel, LM selectează o mulțime de elemente 
ce urmează să fie actualizate, iar LV o mulţime de vectori linie. În ambele 
cazuri, elementele selectate pentru actualizare primesc valorile elementelor 
corespunzătoare din expresia matricială iar celelalte rămîn neschimbate. 


(iv) Punoţii 


Deoarece în DAP FORTRAN expresiile pot avea valori matriciale 
sau vectoriale, definiţia subprogramului funcţie a; fost extinsă pentru a 
include aceste situaţii, ca şi funcția mai uzuală cu valoare scalară. Tipul 
funcţiei se declară în instrucţiunea de definire a funcţiei. Astfel, 


REAL MATRIX FUNCTION MATMULT 


declară o funcţie MATMULT care produce o matrice reală. . 

În plus la extinderea noţiunii de funcţie definită de utilizator, funcţiile 
standard, sau interne, FORTRAN sînt făcute să fie polimorfice. Ele produc 
o valoare cu același tip ca argumentul lor, tipurile matricial și vectorial 
fiind evaluate în paralel. Alte funcții interne ale DAP FORTRAN-ului 
execută manipularea de date, deplasări, selecții sau reduceri. Funcţiile 
de reducere lucrează fie asupra uneia sau a ambelor dimensiuni supuse 
restricțiilor, folosind operatori aritmetici, relaţionali sau logici. Tată 
cîteva exemple : 

ALL.AND. peste linii şi coloane 

ANY .OR. peste linii şi coloane 
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ANDROWS .AND.peste linii 

- ORCOLS .OR. peste coloane 
SUM + peste linii şi coloane l 
MAXP > peste linii şi coloane (produce numai poziția logică). 


(v) Exemple 


În exemplul general de mapare, codul DAP FORTRAN arată similar celui 
prezentat pentru construcțiile paralele generale (§4.3.2). Motivul este faptul 
că dimensiunea problemei corespunde masivului DAP sau dimensiunilor 
supuse restricțiilor în DAP FORTRAN. Toutși, codul este bun numai 
pentru N <64(32). Masivele ALPHABET şi WORD trebuie completate 
cu blancuri în poziţiile rămase neocupate pînă la 64 sau 32. 


CHARACTER VECTOR FUNCTION WORD (ALPHABET, INDEX) 

CHARACTER ALPHABET ( ) 

INTEGER INDEX ( ) 

WORD = (MATC (ALPHABET)) (INDEX), 

RETURN 

END 
Să observăm că sintaxa impune includerea expresiei în paranteze, pentru 
a o indexa. 


(vi) Exemplul înmulțirii matriciale 


Din nou, datorită restricţiilor impuse dimensiunilor, codul ce urmează 
înmulțește matrici mai mici sau egale cu matricea DAP. Varianta de algo- 
ritm folosită este produsul extern, care are paralelism N? ($ 5.3.3). 


REAL MATRIX FUNCTION MATMULT (A, B, N) 
REAL A (,, B (,) 
INTEGER K, N 
MATMULT = 0 
DO 10 K=1, N 
10 MATMULT = MATMULT + MATC (A(, K)) * MATR (B(K,)) 
RETURN 
END l ; 
În DAP FORTRAN poate fi implementată o variantă a expresiei generale 
a înmulțirii matriciale, pentru matrici cu dimensiunea 16 x 16, 16 fiind 
rădăcina cubică din 642 : 
MATMULT (ROW(13). AND. COL (J3)) = SUM — 4 — SQUARE( 
MATO — 4 — SQUARE (A, Ii, J1)* 
MATR — 4 — SQUARE (B, I2, J2), I3, J3) 
unde SUM — 4 — SQUARE, MATC — 4 — SQUARE şi MATR — 4 — 
SQUARE sînt funcții definite de utilizator (Jesshope şi Craigie 1980), care 
simulează un DAP 16?, prin folosirea unei suprapuneri simetrice peste ma- 
sivul DAP 64? (Jesshope 1980c). 


4.3.3. FORTRAN 8X — noul standard FORTRAN | 


Deşi în cadrul limbajului DAP FORTRAN, obiectele de date paralele 
corespund arhitecturii ţintă, alte limbaje propuse aproximativ în aceeaşi 
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perioadă de timp au adoptat soluții lipsite de restricții pentru introducerea 
paralelismului structural în FORTRAN. Două astfel de exemple sînt com- 
pilatorul BSP FORTRAN, care combină beneficiile vectorizării cu cele 
oferite de construcţiile masiv (Burroughs 1977e,Austin 1979) şi VECTRAN 
un limbaj experimental dezvoltat de IBM, care se bazează pe FORTRAN 
şi este prezentat în lucrările lui Paul şi Wilson (1975, 1978). 

Evident, dezvoltarea separată a mai multor limbaje pentru arhitecturi 
de masive sau vectoriale nu este o situaţie ideală. Din acest motiv, Comite- 
inl ANSI X3J3 a decis luarea în considerare a extensiilor masiv ca o carac- 
_ “ristică ce urmează să fie adăugată la noul standard FORTRAN. Această, 
posibilitate a fost luată în considerare pentru prima dată de comitetul 
- ANSI care a produs standardul FORTRAN 77, dar abandonată, cu reco- 
mandarea de a fi inclusă în standardul următor. Multe din aceste caracte- 
ristici se bazează pe construcţii întilnite în limbaje ca DAP FORTRAN, 
BSP FORTRAN şi VECTRAN. Deliberările au început cu aproape o 
decadă în urmă, iar Comitetul X3J3, în momentul redactării acestei lucrări 
a votat; specificaţiile următorului standard FORTRAN. Acesta este denu- 
mit FORTRAN 8X, numele reflectînd acordul final ANSI, în anul 198X. 
Secvența (66, 77, 88) pare din ce în ce mai improbabilă, deoarece stan- 
dardul va fi aprobat numai după ce Comitetul va analiza răspunsurile 
oferite prin recenzii publice. Comitetul are dificultăţi în asigurarea unor 
specificaţii de proiect ce ar urma să fie discutate public, deoarece mulți 
delegați cred că limbajul a devenit prea bogat. 

Noile caracteristici ale standardului propus care ne interesează aici, 
sînt cele referitoare la masive şi prelucrarea lor (paralelismul procesului 
sau task-ului nu este o noutate a limbajului). Cele prezentate aici se ba- 
zează pe informaţiile obținute din documentul de lucru ANSI X3J3 (X3J3/ 
S8, versiunea 95) data iunie 1985, de aceea nu trebuie considerate ca: imua- 
bile. Ele pot fi schimbate, înlocuite sau introduse înainte de a fi acceptate 
ca standard. Cu această menţiune, vom adăuga că aceste caracteristici se 
menţin de mai mult timp. 

Estensiile masiv ale noului limbaj urmează îndeaproape propunerile 
expuse în $ 4.3.1. Totuși , s-a mai definit un tip de date, ca o consecinţă, 
a prelucrărilor de masive. Acesta este tipul BIT, care are două valori, 1” 
şi „0” şi care împreună cu operaţiile binare reprezintă sistemul cu două 
valori al matematicii booleene.Acest tip a fost necesar pentru a permite 
folosirea variabilelor de mascare booleene care permit sau Întîrzie ope- 


rațiile cu masive. 
(i) Masive ca obiecte elementare de date 


Obiectele masiv sînt de formă dreptunghiulară, cu un index pentru 
fiecare dimensiune (pînă la 7) a structurii. Mărimea fiecărei dimensiuni este 
denumită întinderea (extent) acelei dimensiuni, iar numărul dimensiunilor, 
rangul (rank) masivului. Un scalar are rangul 0. Mărimea masivului este 
numărul total de elemente sau produsul întinderilor. Un masiv poate avea, 
mărimea, 0. Forma (shape) unui masiv este definită de rang și întinderea, ` 
dimensiunilor. Odată declarat, rangul masivului este constant, dar întin- 
derile pot să nu tie constante. Întinderile pot varia pentru argumente nede- 
finite, masive incluse în proceduri locale, detalii fiind prezentate în conti- 


336 


nuare. Rangul unui masiv se poate schimba, în timp ce mărimea rămine 
constantă, prin intermediul unui subprogram cu o interfață parametru /ar- 
gument nedefinit. o 

Se spune că două masive sînt conforme în limbajul nou dacă au aceeaşi 
formă, cu excepţia scalarilor, care sînt conformi cu orice masiv. Aşa cum 
s-a prezentat în $ 4.3.1, orice operaţie definită pentru scalari poate fi apli-. 
cată masivelor conforme -şi acestea se execută ca şi cum operaţia scalară 
s-ar aplica fiecărui element al masivelor și într-un astfel de mod încît se 
poate presupune că toate operaţiile se execută simultan. 


(îi) Masive cu forma explicită 


Un masiv cu forma explicită este definit cu valori explicite pentru 
limitele dimensiunii masivului,.o valoare inferioară optimă și una super 
oară pentru fiecare dimensiune a masivului. Dacă, se folosesc variabile: 
pentru definirea. acestor limite, atunci masivele trebuie să fie argumente 
nedeiinite, sau variabile locale într-o procedură. Iată masive cu forma; 
explicită : 

l A(2 : 10,5: 30), B(10, 10, 10), CN — 1) 


Aici A este un masiv bi-dimensional, cu intinderea de la 2 la 10 în prima, 
dimensiune și de la 5 la 30 pentru a doua dimensiune ; B este un masiv cu 
trei dimensiuni cu întinderea de la 1 la 10 pentru toate dimensiunile. 
Dacă N ar fi o variabilă, atunci masivul C ar trebui să fie un argument 
nedefinit sau variabilă locală într-o procedură. i 


(iii) Masive cu forma primită 


Un masiv are forma primită dacă moşteneşte forma de la un argument 
actual procedurii. Un astfel de masiv apare numai într-o procedură, unde 
exte declarat ca argument nedefinit. Va lua forma argumentului actual 
cînd este referită procedura. Argumentul poate fi declarat intr-o instruc- 
tiune ARRAY, care conferă atribute de masiv unei variabile. În acest caz. 
argumentul nedefinit, ca şi celelalte entități declarate în aceeasi instruc- 
tiune ARRAY vor primi forma argumentului aciual, care devine asociat. 
cu argumentul nedefinit. În acest mod, un număr de obiecte masiv vor pri- 
mi forma unui parametru masiv. 


(iv) Masive cu forma alocată 


Un masiv cu forma alocată are tipul, numele și rangul declarate, dar 
forma și limitele sînt determinate în faza de execuţie cind se alocă spaţiu 
cu o instrucţiune ALLOCATE. Iată exemple : 


A(:,:), B(3 2 2), 0(0) 


Rangul masivului este dat prin numărul de coloane, astfel că acest 
masiv are acelaşi rang cu masivele declarate explicit anterior. Mărimea şi 
forma unor astfel de masive sint predefinite pînă la alocarea lor. Pînă ce 
nu sînt alocate masivele, nu se poate face nici o referință la ele sau elemen- 
tele lor. 2 
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(v) Secţiuni masiv 


Ca şi în cazul construcţiilor definite în $4.3.1, o referință la un masiv 
fără indici implică utilizarea întregului masiv. Dacă se execută anumite 
calcule, ele se vor face cu toate elementele şi în orice ordine. Există excepţii 
cînd este necesară ordinea lexicală, ca în cazul instrucţiunilor de I/E. Se 
pot selecta elemente din masiv, pe baza unei liste complete a indicilor, în 
modul obişnuit. Numărul necesar de indici este dat de rangul masivului. 
Fiecare variabilă, indice reduce rangul secţiunii selectate cu 1, astfel încît; 
dacă sînt furnizaţi toţi indicii, rangul secţiunii selectate va fi 0, c-ea ce 
“corespunde unui scalar. 

Altă posibilitate este de a folosi domenii ale indicilor în poziţiile cores- 
punzătoare. Prin urmare, secțiunea se defineşte (ca la masivul părinte) prin 
"produsul cartezian al acestor domenii de indici. Submulțimea, se selectează, 
din domeniul indicelui prin intermediul unui selector, care ia una din urmă- 
toarele două forme : un triplet ce definește baza, întinderea şi pasul, ceea ce 
produce o secvență monotonă, sau un masiv întreg de rang 1. Folosind tri- 
pletul (separat prin :) , 


B(1 : 10, 1,1) şi B(1:10:2,1:10,1:10) 


sînt ambele secţiuni valide din masivul cu forma explicită definit anterior. 
Primul este un vector cu 10 elemente, definit cu indici în ultimele două 
dimensiuni, iar al doilea, un masiv tri-dimensional format cu indici impari 
din prima dimensiune. Exact aceleaşi secţiuni s-ar fi putut; defini folosind 
un masiv cu o dimensiune în poziția primului indice, 


B(IV, 1,1) şi B(IV, 1 : 10, 1 : 10) 


unde, în primul caz, IV = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], iar în al doilea 
IV = [1,3,5, 7, 9]. În general, numărul indicilor şi al selectorilor t sbuie 
să corespundă rangului masivului părinte. Selectorului secţiunii vectoriale 
poate conține orice secvenţă de indici care se află în interiorul domeniului 
corespunzător indicelui respectiv. 

Aşa cum s-a menţionat în $ 4.3.1, lista indicilor poate defini o cores- 
pondenţă unul-la-mai mulți, de la părinte la secţiunea masiv, ceea ce poate 
conduce la rezultate nedeterniniste dacă sint acceptate atmbuir pentru 
astfel de secțiuni masrv. Definiţia 8X interzice astfel de atribuiri, ca şi cele 
prin pereche parametru /argument nedefinit, dacă nu sînt deterministe. 


(vi) Atributul ALIAS și însiruchunea IDENTIFY 


Cind un masiv nu este masiv ? Răspunsul este că atunci cînd are atri- 
butul ALIAS. Un nume de masiv declarat cu acest atribut nu este un 
obiect masiv pînă ce nu a fost asociat cu un obiect actual prin apariţia în- 
tr-o instrucţiune IDENTIFY. Această instrucţiune are aspectul unei ins- 
trucţiuni COMMON executată dinamic, deoarece supraincarcă o zonă de 
-memorie cu un număr de masive diferite, care pot avea forme diferite. Spre 
deosebire de instrucțiunea COMMON, atribuirea unei zone de memorie 
unui masiv anume (ALIASed) se poate realiza cu o instrucțiune executa- 
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bilă, care poate conține variabile care definesc corespondenţa masivului 
atribuit (ALIASed) peste obiectul masiv actual. 


Probabil, instrucţiunea IDENTITY este una din cele mai controver- 
sate noi caracteristici privind posibilităţile de lucru cu masivele. Repre- 
zintă un mijloc pentru asigurarea unei corespondențe dinamice de adrese 
de la masivul alias la masivul părinte, deși este necesar ca această ,cores- 
pondenţă să se realizeze liniar. Seamănă cu o secţiune de masiv, doar că. 
asigură un domeniu mai mare de submulţimi ale masivului părinte. Un 
exemplu simplu va ilustra utilizarea acestei instrucțiuni. 


IDENTIFY(DIAG() = ARRAYU, I, I = 1 : N) 


În acest exemplu, masivul DIAG este de rang 1 şi reprezintă masivul 
ALIAS ; a fost asociat cu spațiul de memorie al masivului părinte ARRAY, 
astfel încît elementele lui DIAG să corespundă diagonalei lui ARRAY. În 
general, corespondenţa cu masivul părinte poate fi orice combinaţie liniară. 
a indicilor masivului alias. Trebuie să existe un specificator de domeniu 
pentru indice care definește domeniul peste care este definită corespon- 
denţa. Prin urmare, se pot specifica, cu o instrucţiune, o transformare de 
indice liniar și un domeniu dinamic. 


Un alt exemplu, prezentat în continuare, redefineşte primele 100 ele- 
mente ale unui masiv cu rang 1, VECTOR, pentru a crea un masiv alias 
cu rangul 2, ARRAY. Cei doi indici definesc întinderea celor două dimen- 
siuni ale masivului ARRAY, iar corespondenţa este definită de combinaţia. 
liniară a acestora : 


IDENTIFY(ARRAY(, J) = VECTOR(I + 10, (J —1)), 
I=1:10,J =1:10) 


Orice referinţă sau atribuire la masivul alias va modifica elementele. 
masivului gazdă, cum este specificat de corespondenţa indicilor. Prin ur- 
mare,. în exemplul nostru, o atribuire la DIAG va modifica primele N lo- 
caţii ale diagonalei principale din ARRAY. 

Odată identificat (IDENTIFYed), un masiv alias poate fi tratat ca. 
orice alt obiect masiv, chiar secţionat, transferat ca argument unui sub- 
program, sau ca obiect părinte la altă instrucţiune IDENTIFY. Utilizarea, 
nedeterministă a procedurii ALIASing de la mai mulţi-la-unul nu este per- 
misä, deoarece există restricţii similare celor aplicate selectorilor vectoriali. 

Se poate vedea, prin urmare, că această posibilitate este foarte puter- 
nică pentru selecţia submasivelor. Totuşi, este probabil dificil de implemen- 
tat pe multe masive de procesoare, cum este ICL DAP, deoarece implică, 
manipularea în faza de execuţie a unui spaţiu global de adrese. Este mult 
mai indicată pentru supercaiculatoarele vectoriale, unde accesul ia memorie 
este secvențial şi definit cu un pas constant, care asigură translarea, liniară. 
a indicelui. Ar putea fi implementat la un masiv de procesoare prin folo- 
sirea actualizării selective aplicată structurii părinte, sau dacă aceasta este 
prea ineficientă ca o atribuire la un masiv alias, cu operaţii ulterioare de 
unificare cu masivul părinte, deoarece.pentru faptul că este o construcţie 
specifică execuţiei, este destul de probabil că vor fi necesare comunicaţii 
prin comutare de pachete. 
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(vii) Functii intrinseci și proceduri 


Deoarece semnatica noului limbaj permite manipularea, obiectelor 
masiv ca cetăţeni de prima clasă, este permisă folosirea lor ca parametri 
în toate funcţiile intrinseci existente în FORTRAN. Toate aceste funcţii 
sint polimorfice, în acelaşi mod în care operatorii sint supraîncăreaţi. 
Astiel, SIN(A) ar produce ca rezultat un obiect care se conformează argu- 
mertului său. Prin urmare, dâcă A este o matrice cu o mărime și formă date, 
functia va returna o altă matrice, de acceaşi mărime şi formă, dar cu ele- 
mentele egale cu valorile obţinute prin aplicarea funcției SIN elementelor 
argument. « 

Propunerea FORTRAN 8X are multe funcţii intrinseci noi, adăugate 
pentiu a facilita introducerea extensiilor masiv în limbaj. De exemplu, 
există funcții enquiry care furnizează domeniul, rangul sau mărimea masi- 
vului. Mai există funcții de manipulare a masivelor, ca MERGE, SPREAD, 
REPLICATE, RESHAPE, PACK şi UNPACK. Cele mai multe din aceste 
funcții au operatori echivalenți în limbajul APL (Iverson 1962). 

Această secţiune nu poate reprezenta o descriere completă a noului 
standard FORTRAN, pentru care în momentul redactării lucrării, nu 
exista nici o propunere de proiect. Se încearcă crearea unei imagini despre 
construcțiile interesante pentru utilizatorii de calculatoare paralele vecto- 
tiale și masive. Cititorul interesat poate consulta documentul original 
(Campbell 1987), sau cele ulterioare, ce pot fi obţinute de ia secretarul 
Comitetului ANSI X3J3. Mai există o lucrare a doi delegați britanici în 
Comitetul FORTRAN X3J3 (Reid şi Wilson 1985) care prezintă exemple 
de exploatare a posibilităţilor limbajului FORTRAN 8X, ca şi cartea 
FORTRAN 8X Explained de Metcalf şi Reid (1987). i 


4.3.4 CMLISP 


Spre deosebire de limbajele descrise anterior, care se bazează pe 
«tructura de masiv și FORTRAN, această secțiune descrie un limbaj care 
se bazează pe structura de date listă si limbajul common LISP. În conti- 
nuare se prezintă o introducere în LISP (pentru consecvență), iar citito- 
-Tul care doreşte detalii poate consulta una din cărțile numeroase despre 
acest limbaj (Winston şi Horn 1981, Touretsky 1974). 

În LISP, obiectele centrale sint listele ; chiar şi funcţiile care operează 
asupra lor, ca şi definițiile lor sint tot liste. Funcși-ie definite în LISP pot 
avea, ca argumente alte funcţii și produc funcţii rezultat. Acestea sint cu- 
noscute ca funcţii de ordin mai înalt, iar folosirea lor asigură un mediu de 
programaro foarte puternic şi expresiv. Operatorul de reducere „/” din 
APL este o funcție de ordin mai înalt ; ca argumente are un alt operator şi 
un masiv, aplicînd operatorul fiecărui element din masiv. De exemplu, în 
APL / + A va suma elementele lui A, iar /*A va forma produsul elemen- 
telor lui A. l m 

În LISP lista este reprezentată de o secvenţă de articole, separate prin 
Spaţiu şi incluse între paranteze. De exemplu, - eo 

„item — este un atom ; 
(item 1 item 2) — este o listă cu doi atomi; 
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((item1 item2)) — este o listă cu un element, care la rîndul lui este o 
listă cu doi atomi; 

((iteml item2) item3) — este o listă cu două clemente, unul este o 
listă, iar celălalt un atom. 

Operaţiile elementare definite în LISP realizează construirea şi dizol- 
varea obiectelor listă, de exemplu : 

CAR — produce primul atom al listei ; 

ODRE — produce ultimul element al listei ; 

CONS — produce o listă pe baza unui atom și a unei liste; 

LIST — produce o listă pe baza unor atomi. 

MLISP (Hillis 1985) a fost proiectat ca mediu de programare pentru 
connection machine şi se bazează pe common LISP, care este folosit la 
M.I.T. de multă vreme. Este proiectat să realizeze operaţiile paralele ale 
calculatorului SIMD connection machine. Totuşi, datorită expresivităţii 
limbajului LISP este posibil să se definească în CMLISP operații de tipul 
MIMD. CMLISP reflectă modul de conducere a calculatorului gazdă și 
microcontrolerul de la connection machine, în timp ce permite exprimarea 
operaţiilor cu structuri paralele de date. Connection machine LISP este 
pentru common LISP ceea ce FORTRAN 8X este pentru FORTRAN TT. 
Limbajul este prezentat complet în lucrarea lui Hillis şi Steele (1955). 

Cele trei artifacte adăugate iimbajului common LISP pentru a produce 
CMLISP sînt xectorul, care este o expresie de paralelism ; notația alfa, 
care este o funcţie de ordin mai înalt ce exprimă paralelismul operaţiei 
peste un xector ; şi reducerea beta, care este o funcţie de ordin mai înalt; 
care exprimă operaţia de reducere. Reducerea beta poate fi echivalată 
operatorului APLN, prezentat anterior. 


(5) Xectorul 


în CMLISP, structură pazaleiă de date este denumită xector, care în 
sens general corespunde la o mulţime de procesoare sau procesoare virtuale 
şi valorile corespunzătoare lor. Este un obiect paralel de date ce poate fi 
prelucrat, turnizind rezultatele, el-ment după element. În acest sens amin- 
teste de masivul definit în FORTRAN 8X.CMLISP posedă operaţii para- 
lele pentru crearea, combinarea, modificarea şi reducerea xectorilor. Spre 
deosebire de DAP FORTRAN, xectorul CMLISP nu depinde de hardware ; 
mărimea lui sau domeniul nu sînt limitate, dar pot fi definite de utilizator. 
într-adevăr mărimea xectorului poate varia dinamic. 

O altă diferenţă între FORTRAN 8X și CMLISP intervine datorită 
naturii structurilor de date folosite. În FORTRAN, structura de date este 
masivul, iar un masiv FORTRAN 8X este, în esenţă, o muljime paralelă 
de indici si valori. Deoarece structura este implicit de formă dreptunghiu- 
lară, indicii nu-sint importanți. Manipularea acestor indici se exprimă în 
limbaj ca o mulțime de operatori de deplasare a datelor, care deplasează 
masivul într-o direcţie și pe o anumită distanță. În CMLISP, xectorul 
constă tot dintr-o pereche index/valoare, ambele fiind obiecte LISP. Mai 
mult, deoarece obiectele sînt liste, adesea se va plasa pe mulţimea index un 
cod semnificativ. Cu alte cuvinte, xectorul reprezintă o funcţie între obiecte 
LISP. Domeniul de definiţie şi de valori sînt: multimi de obiecte LISP, iar 
aplicaţia asociază un singur obiect din domeniul de valori la fiecare obiect 
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din domeniul de definiţie. Fiecare obiect din domeniul de definiţie este un 
index şi are un obiect; corespunzător în domeniul de valori, care este valoa- 
Tea sa. 

Implementare este astfel realizată încît se presupune că fiecare element 
a unui xector este memorat într-un procesor separat unde indexul este 
numele procesor, o adresă stocată în memoria maşinii gazdă, iar valoarea 
este 'cea memorată de acel procesor. Hillis (1985) a propus o notație pentru 
reprezentare xectorilor : 

(John — Mary Paul — Joan Chris — Sue) 


Aici mulţimea de simboluri John, Paul, Chris este aplicată peste mulţimea 
de simboluri Mary, Joan, Sue. Această notație reflectă interpretarea xec- 
torului ca o funcţie. Un caz special pentru xector este mulţimea, unde o 
mulţime de simboluri este aplicată peste ea însăşi ; 


(red — red white — white blue — blue) care este echivalent cu 
{red white blue) 


Un alt caz special este cel în care domeniul de valori al xectorului 
constă dintr-o secvenţă de întregi, începînd cu zero. Aceasta este un masiv 
FORTRAN 8X cu rangul unu, ce corespunde la o mulţime ordonată de 
valori. Notaţia alternativă sugerată de Hillis reflectă acest lucru : 


40-51-23 >10} 
care este echivalent cu 
[5210] 


Ultimul caz special este xectorul constant care transformă fiecare 
valoare index posibilă într-o valoare constantă. De exemplu, xectorul care 
transformă toate valorile în numărul 100 este reprezentat de: 


{> 100} 


Xectorii pot îi manipulați în LISP la fel cu alte obiecte LISP. De exem- 
plu, un xector poate fi atribuit unei variabile folosind funcția SETQ. De 
exemplu, 

(SETQ Wife-of’ {John — Mary Paul— Joan Chris > Sue}). 


Această atribuire stabileşte valoarea simbolului "Wife-ot' xectorului 
definit mai sus. Simbolul ’ semnifică faptul că articolul ce urmează este un 
atom. Odată atribuit un xector, simbolul poate fi folosit în alte funcții ; 
de exemplu, pentru a referi o valoare 


{XREF Wife-of'Johbn) 


se evaluează cu Mary. În mod similar, XSET va schimba o valoare pentru 
un index dat, iar XMOD va aduna a altă pereche de valori, dacă nu există 
deja. Mai există funcții pentru conversia între xectori şi obiecte LISP obiș- 


duite. De exemplu, 


r 


(LIST-TO-VECTOR’(5 2 10)) 
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se evaluează, cu xectorul 
[5 2 10] 


(ii) Notatia alfa 


În’ CMLISP, notația alfa este un mijloc mai formal de exprimare a 
operaţiilor paralele decit cele întilnite în alte limbaje descrise aici, de exem- 
plu FORTRAN 8X. Strict vorbind, notația alfa este operatorul de emisie ; 
creează un xector constant cu argumentul respectiv, de exemplu, scrie 
aceeaşi valoare la fiecare procesor. De exemplu, 


a100 = { > 100} 
a(* 2 3) = { > 6} 
Mai interesant 


at> ti>t} - 


care este un xector de funcții + . Cind se aplică acest obiect la doi xectori, 
efectul este execuția unei compoziții element cu element a valorilor xec- 
torilor. În FORTRAN 8X, această notație este implicită, deoarece opera- 
torii au fost supraîncărcați, pentru a reprezenta atit operații scalare cît 
și paralele, funcţia de context. Astfel, | 


(a+ "a > 1 b> 3pja=2 b-4))=(a-3b-T] 
şi i 
(« CONS fa > 1 b> 3P {a > 2 b > 4}) > {a > (1.2) b > (3.4)} 


Pentru a folosi proprietățile algebrice ale notației alfa, Hillis a introdus 
operatorul invers, care anulează efectul aplicării lui alfa. Este folositor dacă, 
alfa este un factor de mai multe elemente ale unei expresii. De exemplu, 


a + ab) = (a + aaab) 


dar dacă a sau b se evaluează ca xector, utilizarea lui °.’ va anula aplicarea 
lui alfa. Astfel, dacă a ar fi fost un xector, 


a(-4+-ab) = (a + aab) 
Astfel, œ este un operator paralel și -inversul său, sau un mod de a marca 
obiecte deja paralele, într-o expresie evaluată în paralel. 
(iii) Reducerea beta 


Operatorul beta este similar operatorului de reducere APL. Cind se 
aplică unei expresii ce implică un operator binar şi un singur xector, are 
efectul modificării operatorului la unul care realizează o operație de redu- 
cere peste xector prin aplicarea operației fiecărei valori a xectorului. De 
exemplu, i 


(B+ "a > 1b —-3))=4 
Utilizarea combinată a lui alfa şi a acestei notații beta în CMLISP 
asigură un instrument foarte puternic pentru construirea tuturor tipurilor 
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de funcţii. În continuare se prezintă un număr de definiţii de funcţii care 
folosesc această combinaţie de operatori. În aceste exemple alfa, asigură 
emisia și permite toate tipurile de operaţii asociative, iar beta asigură redu- 
cerea, 0 operaţie puternică de manipulare a mulțimilor. 


(DEFUN All — Same (x, y) (6 AND (a = xy))), 


care se poate citi : definește o funcţie denumită 'All-Same', cu paramtrii 
X Și y (xectori), definită ca reducerea beta prin folosirea operatiei AND a 
xectorului rezultat al operației de egalitate între parametrii x si y. Numai 
dacă toate valorile xectorilor x şi y sînt egale, va returna funcția valoarea 
TRUE. O funcție similară, dar care foloseşte operatorul logic OR se defi- 
neşte în continuare: Aceasta va detecta o egalitate între oricare două va- 
lori cu același index. 


(DEFUN One—Same (xy) (POR(a = xy))) 


Următorul exemplu ilustrează folosirea operatorului punct. De fapt 
definiţia diferă numai în utilizarea simbolului, aplicat unuia din parametri 
şi factorizarea operatorului «. Funcţia Is—In are o comportare destul de 
diferită. Detectează dacă articolul y este în mulţimea de valori definită 
de xectorul x. Acum se definește egalitatea între y şi valorile lui x. Se folo- 
sesc alfa şi punctul pentiu a realiza o expresie xector consistentă. Este o 
combinație de operatori asociativi și de reducere : l 


(DEFUN Is—In(xy) (8 AND a ( = -x3))) 


Un ultim exemplu defineşte lungimea xectorului, prin sumarea unei 
valori de unu la fiecare index al parametruiui xestor. Aceasta se realizează 
prin definirea unei funcţii 'Second—One', care returnează; a-doilea para- 
metru. Folosirea acestei funcţii într-o expresie alfa, folosind parametrul 
xector cu punct ca prim parametru al funcţiei, produce efectiv un zector 
de unu cu acceasi mărime ca x: i 


(DEFUN Xector—Length(x) (E + a(Second—One - x1))) 
(DEFUN Second—One (xy) (ş)) 


Utilizarea lui beta ca în exemplele de mai sus reprezintă un caz parti- 
cular pentru o funcţie mai generală. În forma cea mai generală, B ia doi 
xectori ca argumente. Inapoiază un al treilea xector, creat din valorile pri- 
mului xeetor şi indicii celui de-al doilea. Iată un exemplu : 


(B'[1 49Y[ABO)=> {A >1 B —40-9 


De fapt „aceasta se poate interpreta ca o operaţie de transfer, deoaiece 
transmite valorile primului xector indicilor specificaţi de al doilea xector. 
De exemplu, într-o reţea de transfer a pachetelor, operația executată de 
fiecare procesor ar fi emisia unui pachet în reţea, a cărui dată ar fi valoarea 
sa din primul xector şi a cărui adresă ar fi valoarea celui de-al doilea xector. 
Desigur, xectorul rezultat, definit prin sosirea acestor mesaje este nede- 
finit dacă al doilea xector conţine valori multiplicate. În CMLISP această 
condiţie reprezintă o eroare. 
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Totuşi, dacă este folosit alături de alt operator, se specifică o operaţie 
de reducere ce urmează a îi executată pentru toate conflictele de indecși 
(adrese). Astfel, în timp ce i 


(B'[1 49167 [A B A B]) = eroare 
se găseste că 
(8 +’ [149 16]lå B A B] > {A > 10, B > 20} 


Cazul pariiculaa deseris, cu numai un xector ca argument, presupune că 
al doilea argument este un xector constant, astfel că toate valorile primului 
xector sînt reduse de operator. Implementarea va stabili care index, sau 
număr de proces este supus reducerii. Într-o maşină SIMD, evident acesta 
este secvenţiatorul de control. 


4.4 Paralelismul procesului 


44.1 lutroducere 


Asa cum s-a menţionat în secțiunea precedentă, există două tehnici 
pentru exprimarea expliciă a paraielismului ; paralelismul structural şi 
paralelismul procesului. De asemenea, secţiunea anterioară a prezentat 
diverse implementări ale primei variante, paralelismul structural. Totuși 
CMLISP şi chiar APL au mecanisme care tratează operatorii ca valori ele- 
mentare ale structurii paralele de date. Desigur, am putea imagina pro- 
grame întregi componente ale unei structuri paralele, în care caz avem o 
descriere a paraleli: mului procesului. Pentru a ne reaminti, diferenţa este 
una de granalaniiate, deoarece paralelismul structural a fost definit ca gra- 
nularitatea unei singure operaţii peste fiecare element al structurii de date. 
Totuşi, paralelismul procesului solicită scevențe distribuite de operații. 

Modelul de calcul folosit ca şi maniera distribuirii sarcinii de lucru în 
sistem sint foarte diferite între aceste două alternative. Aşa cum s-a arătat 
în secțiunea precedentă, cineva poate considera în cazul paralelismului 
structural procesoarele asociate cite unul pentru fiecare element al struc- 
turii de date, datele activate fiind repartizate procesoarelor disponibile 
pentru a echilibra încărcarea. Astfel, distribuirea încărcării se realizează 
prin redistribuirea elementelor structurii de date. În paralelismul procesului 
procesul este virtualizat, iar sarcina se echilibrează prin distribuirea pro- 
ceselor la procesoare. Unitatea de distribuţie este codul și, desigur, datele 
gi starea asociată. În acest caz v irtualizarea implică menţinerea unui nu- 
măr de fluxuri de instrucţiuni pe un singur procesor. 

Deoarece fiecare proces implică un overhead considerabil în termenii 
stabilirii unui flux de instrucţiuni, există o penalitate la implementarea. 
unui nive! înalt de concurenţă, folosind metodologia paralelismului pro- 
cesului. Într-o oarecare măsură, transputerul şi GCOAM-ul este primul 
sistem care reduce acest overhead la dimensiuni rezonabile. Penalitatea 
plătită este natura statică a procesului, stabilit în faza de compilare. Crea- 
rea, şi distrugerea dinamică a proceselor în timp ce este mai flexibilă, va 
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implica, cu necesitate un overhead mai mare pentru concurență şi de aceea 
va solicita pentru o eficientță mai bună, o granularitate mai mare. Aceasta 
este una din problemele importante abordate de cercetători în sistemele 
declarative — controlul mărimii granularităţii proceselor create. 


Din punct de vedere istoric, paralelismul procesului a evoluat prin 
exploatarea partajării nedeterministe a resurselor unui singur procesor 
şi nu din nevoia de a exploata hardware concurent. Această partajare: 
a permis unităţii centrale, atunci singura, resursă mai costisitoare a siste- 
mului, să fie utilizată eficient ; deoarece cînd un program are de aşteptat 
încheierea unei operaţii lente de intrare sau ieşire, ciclurile CPU „„pierdute” 
ar putea fi folosite de un alt program. 


Pentru un limbaj definit pe baza conceptului de proces sînt necesare 
patru lucruri fundamentale : o metodă de iniţiere şi încheiere a task-urilor 
concurente (de exemplu procedurile fork şi join în UNIX); mijloacele de 
comunicare între task-urile concurente, implementate fie ca un sistem 
de transfer de mesaje, fie printr-o memorie comună ; mijloacele de sineroni-, 
zare a task-urilor, astfel} încît să partajeze o referinţă de timp comună, 
deși vagă ; şi, în sfirşit, mijloace de determinare a alegerii sau metode ne- 
deterministe. La multe limbaje, cu o singură construcţie se poate rezolva. 
mai mult de o astfel de cerinţă. De exemplu, alegerea memoriei parta- 
jate asigură atit mediu de comunicaţie, cit şi nedeterminism, deoarece 
permite ca informaţiile scrise de un task să fie citite de altul. Mai mult, 
dacă mai mult de un task are acces în scriere la o locaţie, atunci un task 
care citeşte un poate şti, fără informaţii suplimentare, care a fost task-ul 
care a scris. 

O altă diferenţă între aceste două tehnici este că în timp ce utilizarea 
paralelismului structural produce un cod foarte concis, care este mai ugor 
de înţeles şi depanat decit codul secvențial, utilizarea tehnicii paralelismului 
procesului creează capcane pentru programatorii neexperimentați, cum ar 
fi : blocarea cînd două sau mai multe procese aşteaptă un eveniment sau 
comunicaţie de la unul din celelalte. Situaţia cea mai simplă este cînd două, 
procese doresc să comunice între ele dar sînt ambele programate să citească 
de la celălalt înainte de a scrie ; ambele vor aştepta la infinit, sau pentru 
declanșarea unui time-out. Ruperea simetriei programate conduce: la eli- 
minarea blocărilor. 


Programarea, este dificilă în cadrul acestui model datorită asincronis- 
mului fundamental sau nedeterminismului global. Să presupunem că avem 
n fluxuri de instrucţiuni şi că este posibil să stabilim o referință de timp. 
pentru orice instrucțiune îh sistem. Să considerăm că starea următoare a 
sistemului se obține după execuţia unei instrucţiuni date. În absenţa ori- 
cărei sincronizări, există n alegeri posibile pentru starea următoare a sis- 
temului, după care n? ete. Această creștere exponențială face depanarea 
foarte dificilă in cazul limbajelor ce se bazează pe procese. O situaţie cla- 
sică este modul în care o eroare dispare misterios cînd la programul ce 
funcţionează defectuos se adaugă cod de urmărire a comportării sistemului. 
Motivul este, desigur, alterarea evoluţiei în timp a sistemului. 

Aceasta este o secţiune mică dintr-o carte care acoperă toate aspectele 
paralelisroului, de aceea, ne limităm aici la o discuţie a limbajului ce se ba- 
zează pe procese, OCCAM. Motivul alegerii acestui limbaj este asocierea sa 
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cu transputerul. Într-adevăr, limbajul OCCAM este foarte strins legat de 
hardware-ul transputerului, de aceea recomandăm ca această parte să fie 
eitită împreună cu $ 3.5.4. unde se descrie transputerul. 

Pentru mai multe detalii despre alte limbaje bazate pe procese şi o 
discuţie mai generală a aspectelor teoretice recomandăm o excelentă intro- 
ducere în acest domeniu (Ben-Ari 1982) şi cartea Communicating Seguen- 
tial Processes de Hoare (1986). 


4.4.2, OCCAM — o alternativă minimală 


Una din schemele cele mai elegante propuse pentru sincronizarea pro- 
ceselor este cea implementată la comunicaţia dintre procesele secvențiale 
(CSP) (Hoare 1978, 1986), prin comunicaţii punct-la—punt, fără bufere. 
INMOS a ales CSP ca bază a limbajului transputerului. Acest limba] denu- 
mit OCCAM. (May şi Taylor 1984, INMOS 1984, Jones 1985, INMOS 1986, 
Pountain 19863) este proiectat să accepte concurenţa hardware explicită. 
Prin urmare, reflectă concurenţa specifică, transputerului, sau dacă ne ex- 
primăm alttel, transputerele sint proiectate să implementeze foare eficient 
limbajul de programare OCCAM. Deşi pe transputer se pot implementa 
eficient cele mai multe limbaje moderne, concurenţa sistemelor cu trans- 
putere poate fi exploatată numai prin intermediul limbajului OCCAM. 


(i) Procese și construirea proceselor 


Programele OCCAM pot fi descrise ca procese care execută acţiuni şi 
apoi se termină. Conceptul de proces poate fi interpretat la mai multe 
nivele în program. Într-adevăr, programul întreg poate fi considerat ca un 
proces care începe, execută anumite acţiuni și apoi se încheie. La nivelul cel 
mai de Jos şi primitivele limbajului sint considerate ca procese, de unde 
denumirea, de procese primitive. Procesele compuse pot îi construite cu 
primitive sau alte procese printr-un număr de construcţii de procese. 
Scopul lor este indicat în textul programului de o schemă îixă, marcată 
de două spaţii. De exemplu, 

- SEQ 
A 
- B 
se citeşte : execută in secvenţă întii procesul A gi apoi procesul B. Un cons- 
tructor similar este folosit pentru exprimarea execuţiei paralele a pro- 
ceselor : l 

PAR 

À 

B a 
Se citește : execută procesele A şi B în paralel. Ambele procese compuse se 
încheie numai după ce toate procesele lor constituente s-au încheiat. Totuşi, 
dacă procesul A nu s-a încheiat în cadrul schemei SEQ, procesul B nu va fi 
lansat în execuţie ; în timp ce la construcţia PAR, dacă procesul A nu s-a 
încheiat, procesul B va avea încă o şansă să se execute şi termine. 
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Constructorii paraleli şi secvenţiali pot fi combinaţi fără restricţii. 
De exemplu, i l 
PAR 
SEQ 
A 
. B 
SEQ 
o 
D 
Aici.două procese se execută în paralel; unul este secvenţa procesului A 
urmat de B, celălalt este secvenţa procesului C urmat de D. 
__ Astfel se pot combina procesele, inclusiv primitivele limbajului, pentru 
a se executa în secvenţă sau în paralel, acest ultim aspect fiind primul 
aspect fundamental prezentat în introducere. Ce se poate spune despre 
regulile privind comunicaţia între aceste procese ? Procesele secvențiale 
pot partaja memoria, deoarece ele se vor executa pe un procesor și va: re- 
flecta modul de control specific şi altor limbaje secvențiale. Procesele com- 
ponente ale construcţiei PAR nu pot partaja memoria, chiar dacă se vor 
executa, pe acelaşi procesor. În OCCAM, toate comunicațiile dintre procese 
paralele trebuie să se execute prin intermediul legăturilor de comunicaţie 
care conectează procesele respective. Acestea sint canalele OCCAM. Sint 
etichetate şi realizează operaţii de comunicaţii punct-la-punct fără bufere. 
Toate procesele OCCAM active sînt. construite pe baza a trei procese 
primitive, de intrare, ieșire și atribuire. Intrarea, și ieşirea sînt primitivele 
de comunicaţie folosite în perechi între procese paralele ce folosesc un anu- 
mit canal. De exemplu, 
PAR 
chan! a + b 
chan fe 
Cele două procese primitive paralele comunică între ele prin scrierea 
(!) şi citirea (?) prin canalul ‘chan’. Acest proces construit este formal echi- 
valent cu următorul proces de atribuire : 


c: =a-+b 


Unicul motiv de a serie această acţiune în paralel ar îi atribuirea de la 
un proces la altul. Dacă ne gindim, această transformare de la atribuire la. 
comunicaţie este una care introduce paralelism plecînd de la o construcţie 
secvenţială,. 

Mai există două procese primitive, dar acestea nu realizează „activităţi 
utile. Procesul SKIP este lansat, nu realizează nimic și se încheie, fiind folo- 
sit cînd sintaxa OCOAM solicită un proces într-o construcție, fără nici o 
acţiune. Al doilea este procesul STOP. Acesta este lansat, nu face nimic, 
dar nu se încheie. De exemplu, procesul 

j SEQ 
A 
B 
STOP 
0 
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SEQ 
A 

B 
STOP 


deoarece procesul C nu se va executa niciodată, 


(ii) Sinoronizare și configurare 


Ca în CSP, canalul de comunicaţie dintre procesele paralele nu este 
buferizat. Astfel, oricare proces devine pregătit primul pentru comunicaţie 
pe un canal, îl va aștepta pe celălalt pînă la executarea primitivei de comu- 
uicaţie, Există un handshake implicit în implementarea, acestei secvențe 
de comunicaţie, deoarece primul proces gata va trebui să semnalizeze celui 
de-al doilea că este în aşteptare. Pentru detalii de implementare consultaţi 
$3.5.4. Prin urmare, comunicaţia furnizează o referinţă globală de timp 
intre cele două procese paralele. Dacă sincronizarea. nu este importantă 
pentru execuţia programului, de exemplu într-o situaţie producător-eon- 
sumator, utilizatorul poate adăuga procese de buterizare. În mod ideal, 
procesul ar trebui să fie în permanenţă gata, să accepte o operaţie de intrare 
sau ieșire, Desigur, trebuie să se execute în paralel cu procesele producător 
şi consumator, În continuare este prezentată structura de comunicaţie a 
unui astfel de piogram. Dacă buferul are spaţu suficient corespunzător 
traficului dintre producător şi consumator, procesele se pot executa fără, 
a cunoaşte unul de existenţa celuilalt, 


PAR 

— producător 
out l... 

— buffer 
PAR 

out ?:., 

in !... 

— consumator 
in î... 


Se spune că un program OCCAM este configurat cînd canalele OCCAM 
sînt atribuite legăturilor de comunicaţie fizice ale transputerului. Cind se 
realizează aceasta, programul OCCAM asigură o structură statică a proce- 
sului, care la un anumit nivel al ierarhiei este distribuit reţelei de transpu- 
tere. Astfel, programele OCCAM asigură cod pentru execuţia pe transputere, 
ca şi informaţii privind reţeaua de interconectare. Într-adevăr, adesea 
este util să se considere procesele OCCAM ca baloane iar canalele OCCAM ca 
arce ce le leagă. O astfel de reprezentare apare în fig. 4.8. 

Protocolul handshake care asigură sincronizarea între transputere 
este generat de legătura hardware în cursul procesului de comunicaţie. 
Dacă mai mult de un proces paralel se execută pe un procesor şi un proces 
așteaptă un eveniment de sincronizare, atunci acel proces este înlăturat, 
iar alte procese pot concura la resursele procesorului. La recepţionarea 
acelui eveniment, procesul suspendat este replanificat.În acest mod se poate 


349 


evita încărcarea nedeterministă a transputerelor în sistem, deși încărcarea, 
statică de ansamblu trebuie decisă de programator. Implementări ulteri- 
oare ale OCCAM-ului vor putea relaxa această descriere statică a proceselor. 


Fig. 4.8 Transformata Fourier rapidă exprimată 
Asavie algoritmic ca o mulțime de procese care comunică. 
C=csig fiecare executind operaţii de inmulțire şi adu- 
i B=bsif nare/scădere complexe asupra datelor de intrare, 
D=d+ih Reţeaua de comunicație va fi ețenua fluture 


PROC IWIDDLE(CHAN m,n.o.p VAR w.z) 
VAR ptr 
pis4 
WHILE TRUE 

sea 
VAR 2(6).616].c(6).d[6].t(2Ţ 
PAR 


m?alptr far 2) 
n?b[ pt for 2] 
SEQ 
PAR 
€(0] = biptr- 2jew-blpir= ez 
€[1) = d(pu = 2]ez+ bipte= 1]ew 
PAR 
clau - 7] = aţptr - 2] + (0] 
clot- 1] = a(ptr- 1] erfi] 
dipt - 2] = d(pu - 2] - {0} 
din - 1] = dlpw- t]- ct] 
o'c{pi - 4 tor 2] 
a'di pre - 4 lor 2] 
ar = (pr » 2) 6 


= 


În cazul comunicației între două procese ce se execută pe un singur 
transputer, canalele OCOAM sînt implementate prin deplasarea datelor 
în memoria transputerului, cu folosirea aceluiași protocol de sincronizare. 
Mai mult, în ambele situaţii se folosesc aceleaşi ordine, ce permit unui cod 
precompilat să aibă un canal atribuit unei legături sau locaţii de memorie. 
Astfel, este posibil să se execute un program OCOAM pe diferite reţele de 
transputere, prin modificarea cuantelor de timp, dar numai dacă structura 
procesului este izomorfă cu rețeaua fizică de transputere. Dacă se realizează 
acest lucru, singurele modificări necesare la codul OCCAM ar fi instruc- 
ţiunile care alocă canalele la legături. 


(iii) Alegerea şi nedeterminismul, 


Ca şi alte limbaje secvențiale, OCOAM-ul are alţi constructori, care 
permit o alegere a acţiunii. Primul este cel de buclare. De exemplu, 


WHILE condiţie 
SEQ 

A 

B 


Această construcție se execută în mod repetat pînă ce condiția de control 
devine FALSE, moment în care se încheie. În acest exemplu corpul este un 
proces format din secvenţa de procese A şi B. 
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Al doilea mecanism convenţional pentru: alegere în OCCAM este un 
constructor IF generalizat, care permite definirea proceselor condiționale. 
Semantica instrucţiunii IF este similară celei de la CASE în limbajul 
PASCAL. Intrucţiunea IF poate lua orice număr de procese, fiecare tre- 
buind să aibă o condiţie de test asociată. Instrucţiunea IF este lansată, 
evaluează fiecare test în ordinea scrisă şi execută primul proces al cărui 
test a fost evaluat cu valoarea TRUE ; apoi se încheie. Prin urmare, o ins- 
trucţiune IF fără nici o componentă se comportă ca un proces STOP. Nu 
este necesar ca fiecare test să împartă spaţiul testat în mulţimi disjuncte, 
dar pentru a asigura terminarea instrucţiunii IF, spaţiul trebuie acoperit. 
Din acest motiv, adesea o instrucţiune IF se va încheia cu o combinaţie 
de TRUE şi SKIP. De exemplu, Mu 


IF 
a=1 
A 
a=2 
B 
TRUE 
SKIP 


` Acest cod asigură alegeri pentru a = 1 şi a = 2 şi acoperă spaţiul de 
test cu condiţia TRUE. Datorită semanticii instrucţiunii, procesul SKIP 
se va executa numai dacă a nu este egal cu 1 și nu este egal cu 2. 
Instrucţiunea IF permite o alegere deterministă într-un program OC- 
CAM ; alegerea este determinată de valoarea variabilelor în cadrul dome- 
niului constructorului și semantica execuţiei ei. Nu se poate spune același 
lucru dacă alegerea se face pe baza stării canalului, deoarece starea lor nu 
poate fi determinată la un moment dat, avînd o funcţionare asincronă. 
Astfel, un alt constructor, ALT, realizează alegerea nedeterministă. Cons- 
tructorul ALT asigură un număr de procese alternative şi, precum cons- 
tructorul IF, fiecare proces are o opțiune care determină execuţia lui. Spre 
deosebire de constructorul IF, alegerile trebuie să includă o intrare pe canal ; 
de asemenea, trebuie să conţină o condiţie (ca la constructorul IF). Opţiu- 
nile constructorului ALT sînt denumite sentinele (guards), conform defini- 
ţiei lui Dijkstra (1975). 
running: = TRUE 
VAR x 
WHILE running 
ALT 
chan 1? xand RUNNING 
chan 3! x 
chan 2? xand RUNNING 
chan 3! x 
onoff ANY l 
running : = NOT running 
Programul va multiplexa intrările recepționate de la canalele 1 şi 2 
pe canalul 3, pînă ce primește informaţii pe intrarea canâlului ‘onoff’. Pro- 
cesul ALT va fi lansat, va aştepta pentru satisfacerea uneia din opțiunile 
nedeterministe (în acest caz se aşteaptă o intrare şi evaluarea condiţiei), 
execută procesele sentinele şi apoi se încheie. 
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Acest program mai ilustrează o serie de alte aspecte privind limbajul 
OCCAM ; de exemplu, intrarea la ANY asigură un semnal, deoarece datele 
asociate cu operația de comunicaţie sint eliminate. Numai sincronizarea 
este relevantă. Să observăm şi modul de terminare a programului. Varia- 
bila “running” trebuie definită ca un proces sentinelă, altfel instrucţiunea 
ALT s-ar putea să nu se încheie (din acest punct de vedere un proces ALT 
se comportă ca un proces IF). De exemplu, poate fi resetat după testul 
WHILE, dar înaintea testului ALT, în care caz nici o sentinelă nu va fi 
satisfăcută la trecerea procesului WHILE. Programul ilustrează declaraţia, 
de variabilă care poate fi asociată cu orice proces sau construcţie a limba- 
jului, iar domeniul său este determinat de persistenta procesului. Astfel, 
variabila x va fi alocată din stiva procesului înaintea execuţiei construc- 
torelui WHILE și folosită după terminare. Într-adevăr este posibil să se 
realizeze: > ; 

VAR x 
x: = VALUE 


(î:) Hultiplicatori 


Adesea este de dorit folosirea multiplicatorilor în asociere cu construc- 
torii paraleli sau secvențiali. OCCAM permite acest lucru ca o extensie a 
sintaxei constructorilor respectivi. De exemplu, 


SEQi =0 FOR 5 
A 


B 


va executa secvența formată din procesele A şi apoi B de 5 ori. Procesele 
pot conţine masive care folosesc pe i ca index, sau îl pot folosi ca etichetă, 
în alfe moduri, ca în alte construcţii secvențiale de bucle. Valorile luate 
de i sint [0 1 2 3 4]. Folosirea multiplicatorului paralel este mai intere- 
santă deoarece poate fi folosită la descrierea masivelor de procese paralele. 
De exemplu, 
PAR i = 0 FOR 52 
PAR ] = 0 FOR 32 


va defini un masiv bi-dimensional de procese A. Variabilele multiplicator 
pot îi folosite pentru selecţia din masive de canale şi pentru a descrie comu- 
nicaţia dintre copiile acestui proces. Trebuie să menţionăm că solicitarea 
de reţele statice în implementările curente ale OCCAM-ului impune o ex- 
presie constantă sau o constantă pentru numărul de multiplicări. 

Este evident că în acest text putem realiza doar o introducere în lim- 
bajul OCCAM. Recomandăm lucrările INMOS (1984) şi Jones (1985) 
pentru o introducere în OCCAM I, INMOS (1986) și Pountain (1986)a 
pentru o prezentare a OCCAM II și Hoare (1986) şi Roscoe și Hoare (1986) 
pentru o tratare mai teoretică a CSP şi OCCAM. 


45 Tehnici pentru exploatarea paralelisraului 


Pentru a încheia, acest capitol despre limbaje paratele, vom trece în re- 
vistă un număr de tehnici care pot fi aplicate la rezolvarea unei probleme: 
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Alegerea tehnicii va depinde de mai mulţi factori, inclusiv limbajul dispo- 
nibil, modelul de paralelism și parametrii săi de implementare. Acelaşi 
algoritm poate fi implementat în multe cazuri folosind cele trei tehnici 
descrise aici. l 

De exemplu, folosind reţele de transputere, modelul este unul de para- 
lelism al procesului, iar parametrul cel mai important care trebuie luat în 
considerare este lărgimea de bandă a comunicaţiei, discutată în $ 3.5.5 
Aceasta va determina granularitatea cu care un program (sau datele sale). 
poate fi partiţionat pentru a fi distribuit pe reţeaua de transputere (presu- 
punind desigur că programul solicită comunicaţii). Pentru un algortim dat, 
granularitatea şi deci eficiența pot fi diferite funcţie de tehnica folosită. 


4.5.1 Ferma de procesoare 


Aceasta este una din metodele cele mai simple de exploatare a paralelis- 
mului. Poate fi folosită în aplicaţii unde un mănunchi de procese pot fi 
„distribuite” unui procesor disponibil. Aceste procese pot fi identice, dar 
trebuie să fie independente. De exemplu, în fizica energiilor înalte, există o 
mare cantitate de informaţii experimentale. Acestea trebuie analizate 
pentru găsirea evenimentelor semnificative. Odată identificat, fiecare 
eveniment poate necesita o cantitate mare de prelucrări pentru a se 
determina dacă este semnificativ sau nu. Aceste operaţii pot fi distri- 
buite unui procesor, în timp ce alte evenimente sînt recunoscute şi prelu- 
crate de alte procesoare. Procesoarele pot fi alocate dintr-o.coadă de proce- 
soare disponibile. Uneori această tehnică se mai numeşte paralelism al 
evenimentelor. 

Există şi alte aplicaţii unde poate fi exploatată această tehnică, de 
exemplu prelucrarea formelor independente în cazul proiectării măştilor de 
circuite integrate, sau calculul pixelilor color independenţi în cazul calcu- 
lului Mandlebrot. În toate cazurile, alocarea unităţilor de lucru de o mă- 
rime suficientă la un procesor va fi realizată de un proces supervizor, æ 
cărui unică sarcină ar fi distribuirea calculelor și colectarea rezultatelor. 

Eficienţa acestei metodologii impune existenţa unor unităţi indepen- 
dente de prelucrare care nu au nevoie de comunicaţii (semnificative), în 
termenii operaţiilor pe care le execută; în comparaţie cu overhead-ul 
pentru distribuirea calculelor şi colectarea rezultatelor. Operaţiile de comu- 
nicaţie care sînt totuşi necesare ar trebui să se suprapună cu cele de calcul. 
Încărcarea supervizorului va limita granularitatea unităţii de calcul. 

În fig. 4.9(a) se prezintă structura proceselor ce pot fi implementate pe 
ferme de procesoare. Fig. 4.9(b) prezintă un model cu un singur nivel, unde 
activitatea este distribuită pe o structură liniară, sau chiar continuă, rezul- 
tatele fiind conectate pe canale. Fiecare proces, fizic distribuit, va conţine 
cod pentru recepţia și transmisia de activități (ce vor depinde de schemele 
de bufere folosite) şi o copie a programului care se execută. | 

Fig. 4.9(c) prezintă o structură ierarhică pentru o fermă de procesoare 
unde toate nodurile, mai puţin frunzele, vor conţine procese supervizor 
pentru recepţia şi distribuirea activităţilor, ca şi o copie a programului exe- 
cutat. Nodurile frunză au nevoie numai de un proces de buferizare plus 
programul. 
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4.5.2 Paralelismul algoritmie 


A doua tehnică este legată de structurile pipeline. În acest caz, un pro- ` 
gram sau proces este partiţionat şi distribuit reţelei de procesoare sau agen- 
ților de calcul. Fiecare partiție se execută în paralel cu datele sale sau cu 
cele primite de alte părţi ale programului. În cazul existenţei unor limite 
secvențiale la evaluarea partiţiilor, se poate folosi conceptul de pipelining 
pentru menţinerea concurenţei. Cînd este 
folosit, solicită un flux continuu de date ua 


prelucrat de fiecare partiție, astfel că -r e Te 

orice inițializare impusă de secvență să P NEEN 

fie amortizată. LO 
praictrate] 


Reţeaua de procesoare necesară în 
acest caz trebuie să reflecte fluxul de 
date pentru algoritmul dat. De fapt, 
trebuie să formeze un graf static al algo- 
ritmului. Granularitatea proceselor dis- 
tribuite poate fi-teoretic — la nivelul 
unei operaţii, ca la maşinile data flow 
dinamice (Gurd şi Watson 1980, Wat- 
son și Gurd 1982), sau chiar mai fină 
dacă considerăm microprogramarea arhi- 
tecturilor pipeline. Granularitatea poate 
fi la nivelul programului, ca în cazul 
proceselor pipeline UNIX. Granulari- 
tatea proceselor trebuie determinată de 
raportul timpului cerut pentru calcule 
în comparație cu cel necesar execuţiei 
operaţiilor de comunicaţie a datelor la un 
proces dat. 

Acesta este un mod foarte eficient 
de programare a transputerului, în spe- Fig. 4.9 Conceptul fermei de procesoare. 
cial dacă codul şi datele necesare în (a) Modelul fermei de procesoare.. (b) O 
fiecare transputer sînt mici în compa- rețea liniară de procese ale fermei. (c) O 
rație cu capacitatea memoriei sale in- reţea arbore de procese ale fermei. 
terne, deoarece aceasta înseamnă un sistem cu o mare densitate a puterii. 
de calcul și o densitate mică a memoriei sale interne, deoarece aceasta în- 
seamnă-un sistem cu o mare densitate a puterii de calcul şi o densitate 
mică a memoriei distribuite. Într-adevăr, dacă partiţiile programului sînt 
suficient de mici, programul întreg şi datele sale se pot păstra în cei 4 
KB ai unui T800. 

Această tehnică a fost exploatată adesea în hardware-ul specializat, 
de exemplu la prelucrarea semnalelor numerice. Cu o componentă progra- 
mabilă, cum este transputerul, multe aplicații pot exploata același hard- 
ware. Problema este că, dacă rețeaua nu reflectă cu acuratețe graful de 
evoluţie al procesului de calcul, granularitatea proceselor distribuite va 
deveni inacceptabil de mare. Motivul este întirzierea suplimentară, over- 
head-ul mai mare şi lărgimea de bandă mică asociată cu operaţiile. de, 
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comunicaţie între transputerele care nu sînt vecine, Un exemplu de imple- 
mentare FFT este prezentat în fig. 4.8, unde apare o submulțime a rețelei 
procesului, împreună cu fragmentul din aiii OCCAM 1 care se exe- 
cută pe fiecare transputer, I 


4.5.3 Paralelismul geometrie 


Ultima, tehnică de exploatare a multiplicării implică o partiţionare a 
datelor şi nu a programului. Dacă un algortim dat poate prelucra concu- 
rent o structură mare de date, atunci poate fi partiționată pe o reţea de 
procesoare. În acest caz, algoritmul folosit pentru prelucrarea datelor va fi 
copiat în fiecare proceşor al reţelei. Apoi, algoritmul se va aplica partiției 
locale din structura de date, împreună cu orice alte date comunicate de 
alte partiții. 

Este important, isteti motivelor expuse în $3.3, ca rețeaua să, Teflec- 
te schemele de coniunicaţie necesare între partițiile structurii de date. 
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ALGORITMI PARALELI 


5.1 Principii generale 


Pentru a atinge performanta optimă a fiecărui calculator este necesa T 
ca în scrierea programului să se ţină cont de arhitectura calculatorului. 
Acest imperativ valabil pentru calculatoarele seriale se păstrează şi la cele 
paralele. Acesta. este motivul pentru care programele scrise în limbaj de 
asamblare, care ţin cont de structura calculatorului, pot încă depăși perfor- 
manţele codului produs.de cele mai sofisticate compilatoare. Cu apariţia 
calculatoarelor paralele s-a schimbat doar raportul dintre performanţa unui 
program bun și cea a unui program slab. Acest raport nu depășește probabil 
un factor de 2 sau 3 pentru un calculator serial, în timp ce factori de 10 sau 
mai mult nu sînt neobișnuiţi la un calculator paralel. În mod destul de 
simplu, importanţa stilului de programare a crescut substanţial. 

n acest capitol nu facem nici o încercare de a prezenta algoritmii 
paraleli pentru toate domeniile importante ale analizei numerice — o 
astfel de sarcină ar impune un volum separat. În loc de aceasta am selectat 
o serie de probleme înrudite care ilustrează tipul de consideraţii ce sint pro- 
babil importante în alegerea unui algoritm şi arătăm cum poate fi analizată 
performanţa, relativă a algoritmilor într-un mod simplu, folosind concep- 
tele prezentate în cap. 1. Începem în $ 5.2 cu problema simplă a calculării 
sumei unei mulțimi de numere și extindem apoi tehnicile la rezolvarea recu- 
renţei generale de ordiniul 1. Înmulțirea matricelor (35.3) este o altă pro- 
blemă simplă care evidenţiază o varietate de soluţii, fiecare din ele adec- 
vată unui tip diferit de calculator paralel. Sistemele de ecuaţii tridiago- 
nale ($5.4) şi transformatele ($5.5) intervin foarte frecvent şi merită o tra- 
tare specială. Rezultatele obţinute în aceste ultime două secțiuni sînt 
folosite ulterior în $5.6 pentru a analiza diferite metode iterative sau di- 
recte pentru rezolvarea ecuaţiilor cu derivate parțiale. Această secțiune 
pune un accent deosebit pe metodele de transformare rapidă care se aplică 
unor anumite clase de ecuaţii diferenţiale parţiale simple, ca de exemplu 
ecuaţia Poisson. Dintre multele domenii pentru care nu avem spaţiu de 
tratare, cele mai importante sint probabil optimizarea, găsirea rădăcinii, 
ecuaţii diferenţiale ordinare, ecuaţii liniare generale complete sau rare, 
inversarea matricelor şi determinarea valorilor proprii. Pentru unele din 
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aceste subiecte recomandăm lucrările : Miranker (1971), Poole și Voight 
(1974), Heller (1978), Sameh (1977), ca şi referințele citate de aceşti autori. 
Alte perspective asupra calculului paralel prezintă Kuliseh și Miranker 
(1983) şi Kung (1980). 

Analiza unui algoritm paralel trebuie efectuată în cadrul unui anumit 
model de evaluare a timpului de calcul. Noi folosim aici modelul (ra, N./2) 
comportării hard-ului în timp ($1.3.2) pentru a dezvolta metoda n, de 
analiză a algoritmului pentru calculul SIMD ($ 5.1.6) și metoda de analiză 
Siz pentru calculul MIMD ($ 5.1.7). Mai există multe alte modele, de exem- 
plu cel al lui Bossavit (1984) pentru calculul vectorial şi al lui Kuck (1978) 
şi Calahan (1984) pentru calculul MIMD. 


Pină în anul 1984 nu a existat nici o rezervă dedicată în exclusivitate 
publicării algoritmilor pentru calculatoarele paralele. Cele mai multe arti- 
cole au apărut în S.U.A. în IEEE Transaction on Computers, în Journal gi 
Communications of the ACM, sau în Journal of Computational Physics 
(Academic Press). În Europa principala sursă este Computer Physics Com- 
munications (North Holland), care a publicat lucrările conferințelor Vector 
and Parallel Processors in Computational Science (VAPP 1982, 1985) ce au 
avut loc la Chester în 1981 şi la Oxford în 1984. Alte lucrări ale unor con- 
ferinţe europene ce conțin algoritmi paraleli sint Conpar'81 (Handler 1981) 
şi Parallel Computing '83, '85 (Feihmeier, Joubert gi Schendel 1984, 1986). 
Conferinţa principală din-S.U.A. este International Conference on Parrallel 
Processing, care se ţine anual şi ale cărei lucrări sînt publicâte de IEEE 
Computer Society Press. În 1984 au apărut două reviste noi dedicate în 
întregime problemelor calculului paralel ; acestea sînt Parrallel Computing 
(North Holland) gi Journal of Parallel and Distributed Computing (Academic 
Press). Revista Computer and Artificial Intelligence, publicată incepind cu 
1982 de Academia slovacă de ştiinţe, cu lucrări în engleză și rusă, acperă şi 
domeniul algoritmilor paraleli. Alte surse principale pentru algoritmi para- 
leli sint colecţiile de lucrări editate de cunoscuţi specialisti în domeniu : 
High Speed Computers and Algorithm Organization (Kuck et al 1977); 
Parallel Computations (Rodrigue 1982); Parallel Processing System (Evans 
1982); High Speed Computation (Kowalik 1984); Algorithms, Software and 
Hardware of Parallel Computers (Miklosko and Kotov 1984); Distributed 
Computing (Chambers et al 1984) ; Distributed Computing Systems Program- 
me (Duce 1984); Introduction to Numerical Methods for Parallel |Compulters 
(Schendel 1984); Parallel MIMD Computation (Kowalik 1985); Vector 
and Parallel Processors for Scientific Computation (Squazzero 1986); şi 
Scientific Computing on Vector Computers (Schonauer 1987). Se pare, după 
creşterea explozivă a publicaţiilor începînd cu 1984, că domeniul de studiu 
al calculului paralel a devenit de sine stătător. 


5.1.1. Performanța algoritmilor 


Vom defini performanța unui program de calculator ca fiind invers 
proporțională cu timpul C (timp unitate centrală, timpul cit unitățile de 
calcul — (aritmetică şi logică) — sînt folosite de un program ; nu includ 
timpul pentru operaţiile de I/E — consumat pentru execuţia programului). 
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- 5.1.2 Paralelismul 


În orice etapă a execuţiei unui algoritm, paralelismul său este definit 
ca numărul operaţiilor aritmetice ce sint independente şi pot fi executate 
prin urmare în paralel, cu alte cuvinte concurent sau simultan. La un cal- 
culator pipeline operanzii vor fi definiți ca vectori, iar operaţia va fi exe- 
cutată cu o singură instrucțiune vectorială. Paralelismul este acelaşi cu 
lungimea vectorului. La un masiv de procesoare datele pentru fiecare ope- 
rație sînt alocate diferitelor elemente procesoare ale masivului, iar opera- 
ţiile sînt executate în același timp ca rezultat al interpretării unei instruc- 
ţiuni în unitatea, centrală master. În acest caz, paralelismul este egal cu 
numărul operanzilor ce sînt prelucraţi în paralel, în acest mod. Paralelismul 
poate rămine în cursul diverselor etape ale unui algoritm (ca în cazul în- 
mulţirii matricelor, $5.3) sau poate varia de la etapă la etapă (ca în cazul 
SERICR, forma serială a reducerii ciclice, $5.4.3). 

Adesea este aleasă arhitectura calculatoarelor paralele pentru atin- 
gerea performanței celei mai bune cînd se execută operaţii cu vectori de 
anumite lungimi (adică, cu un anumit număr de elemente). Acesta este, 
prin definiţie, paralelismul hardware natural al calculatorului. De exemplu, 
ICL DAP 64 x 64 pune la dispoziţie trei tipuri de memorare şi moduri 
de operaţii aritmetice cu vectori, respectiv, de lungime 1 (memorare orizon- 
tală şi mod scalar), de lungime 64 (memorare orizontală şi modul vectorial 
şi lungime 4096 (memorare verticală şi mod matrice). Deşi aceste moduri 
sint disponibile prin program, ele sînt alese pentru conformare la dimensiu- 
nea hardware a masivului DAP şi constituie astfel trei nivele de paralelism, 
fiecare cu nivelul său propriu de performanţă. La calculatoarele pipeline 
fără registre vectoriale, ca de exemplu CY BER 205, performanţa medie 
(ecuaţiile 1.9 şi figura 1.16) crește monoton odată cu creșterea lungimii 
vectorului, iar cineva poate să spună că paralelismul hardware natural este 
cît se poate de mare (limita superioară este reprezentată de lungimea, 
maximă a vectorului permis de hard-ul maşinii, adică 64K—1). La calcu- 
latoarele pipeline cu registre vectoriale, ca de exemplu CRAY X —MP, cea 
mai bună performanţă se atinge pentru vectori cu lungimea multiplu de 
numărul elementelor înregistrate într-un registru vectorial. În cazul calcu- 
latorului CRAY X—MP cu registre vectoriale de 64 elemente, paralelis- 
mul natural este 64 sau multipli ai acestui număr. 

. Obiectivul unui bun programator/analist în calculul numeric - este gă- 
sirea unei metode de rezolvare care să realizeze cea mai bună concordanţă 
între paralelismul algoritmului și paralelismului natural al calculatorului. 


5.1.3 Pasaealeulatorul și eficiența 


Pentiu a stabili performanţa masivelor de procesoare, Schwartz (1980) 
a propus conceptul de paracalculator. Acest calculator este un masiv SIMD 
infinit de elemente procesoare, fiecare .din ele avînd acces la o memorie 
comună în paralel pentru fiecare dată. Orice algoritm ar realiza performan- 
ta maximă pe un astfel de calculator, deoarece se elimină cauzele obișnuite 
de incficienţă. Paracalculatorul nu are întirzieri de transfer sau conflicte 
de acces la memorie (vezi $5.1.4 şi $5.1.5) și are întotdeauna suficiente ele- 
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Cu alte cuvinte, un program de mare performanţă își atinge obiectivul în 
timpul cel mai scurt. În acest context, obiectivul urmărit este minimizarea 
timpului CPU folosit pentru obţinerea soluţiei problemei. Aceasta nu este 
singura definiţie a performanței care ar putea fi dată — s-ar putea impune 
costul minim pentru instalarea unui anumit calculator sau minimizarea 
spaţiului de memorie folosit. Oricum, creşterea performanţei în cadrul defi- 
niţiei noastre este de obicei dezirabilă şi este cel mai ușor de cuantiticat. 
Orice referință la cost este subiectul inconstanţei algoritmilor particulari 
de încărcare, iar disponibilitatea unei memorii mari foarte rapide (256 Mw 
pare să fi devenit norma la calculatoarele paralele) înseamnă că utilizarea 
memoriei nu mai este probabil o restricţie importantă. 


Este interesant de notat că la prima generatie de calculatoare, de 
exemplu EDSAC care avea un total de 512 cuvinte de memorie rapidă 
(Wilkes et al 1951), minimizarea utilizării memoriei a fost criteriul de pro- 
iectare cel mai important. În consecinţă, au fost elaborati algoritmi spe- 
ciali pentru a-l respecta, de exemplu varianta Gill pentru metoda Runge- 
Kutta de rezolvare a ecuaţiilor diferențiale ordinare (Gill 1951). De aseme- 
nea, este important de observat că, la calculatoarele paralele, obiectivul 
timpului de execuție minim nu este în mod necesar sinonim cu realizarea 
numărului minim de operaţii aritmetice ca în cazul calculatoarelor seriale. 
Exemplele prezentate în acest capitol vor evidenția acest lucru, ce apare 
deoarece ciştigurile în viteză produse de creşterea numărului de operaţii 
executate în paralel poate cîntări mai mult decit costul introducerii unor 
operații aritmetice suplimentare. Astfel, deși măsurarea performanţei hard- 
ware a unui calculator prin numărul de operaţii în virgulă mobilă executate 
pe secundă este sensibilă, o astfel de măsură singură nu este în mod necesar 
folositoare în alegerea unui algoritm pentru un calculator paralel (vezi 
$5.1.6 şi § 5.1.7). 

Performanţa unui program de calculator depinde atit de adecvarea 
procedurii numerice — cunoscută ca algoritm — folosită pentru rezolvarea 
problemei cît și de îndemînarea cu care este implementat algoritmul pe 
calculator. de programator sau compilator în timpul operaţiei de codare. 
În acest capitol examinăm algoritmii adecvaţi pentru rezolvarea unei 
game de probleme obișnuite folosind calculatoarele paralele. Dacă parale- 
lismul algoritmului corespunde paralelismului calculatorului, este aproape 
sigur că un program de performanţă ridicată poate îi scris de un progra- 
mator experimentat. Totuşi, considerarea detaliilor de programare pentru 
diverse calculatoare este în afara scopului acestei cărţi, iar cititorul este 
îndrumat către manualele de programare ale calculatorului său particular. 
Cele mai multe calculatoare paralele dispun de un compilator vectorizant 
pentru un limbaj de nivel înalt, de obicei FORTRAN cu sau fără extensii 
de prelucrare a masivelor (vezi cap. 4) şi trebuie să fie posibilă atingerea a 
cît mai mult din performanța potenţială într-un astfel de limbaj. În cele 
mai multe cazuri va fi necesară programarea părților cheie ale programului 
în limbaj de asamblare — dispunind astfel de toate posibilităţile calcula- 
torului — dacă trebuie obținută performanţa maximă (de exemplu per- 
formanţa supervectorială la CRAY. X-MP vezi cap. 2). 
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mente procesoare. Deşi paracalculatorul este irealizabil practic, este un 
concept folositor pentru stabilirea performanţei algoritmilor şi a masivelor 
de procesoare actuale. De exemplu, se poate defini paraeticienţa ca :} . 


timpul de execuţie pe paracalculator 


P timpul de execuţie pe un calculator actual 


(5.1) 


unde presupunem că; elementele procesoare au aceeași performanţă hard- 
ware pe paracalculator şi calculatoarele actuale. 

De asemenea, se poate folosi raportul dintre timpul de execuţie a 2 
algoritmi pe paracalculator, ca o măsură relativă a performanţei lor. Totuşi, 
această măsură poate să nu fie un indicator bun al performanţei relative pe 
calculatoarele actuale, deoarece ignoră timpul necesar transferului datelor 
între elementele procesoare aflate la distanță în masiv (întirzieri de trans- 
fer). Grosch (1975) a utilizat conceptul paracalculatorului pentru compa- 
varea performanţelor diferiților algoritmi pentru rezolvarea ecuaţiei Pois- 
son pe masive de procesoare cu diferite structuri de intereonectare între 
elementele procesoare. El compară topologią vecinătăţii maxime, utili- 
zată pe ICL DAP (vezi $3.4.2) cu şi fără transferul la distanță mare realizat 
de topologia amestecului perfect așa cum a fost propusă de Stone (1971). 

Deşi inventat pentru compararea masivelor de procesoare, conceptul 
paracalculatorului poate fi utilizat; în studiul procesoarelor pipeline. Para- 
calculatorul corespunde unui procesor pipeline cu timpul de iniţializare 0, 
fără conflicte de acces la memorie și na de valoare infinită. Reamintin- 
du-ne că mp, = $ + l — 1 (vezi ec. 1.6.b) unde sr este timpul de iniţializare 
şi 1 numărul subfuncţiilor care se suprapun, se poate vedea că, dacă para- 
calculatorul tinde spre 7, proporţia funcţionării paralele a pipelineului 
devine mare. La, cealaltă extremă, se poate defini un procesor serial per- 
fect ca un procesor pipeline cu numai o subfuneţie (de exemplu, unităţile 
aritmetice nu sint segmentate) și care, de asemenea, nu are timp de iniția- 
lizare sau conflicte de acces la memorie. Procesorul serial perfect cores- 
punde, prin urmare, unui procesor pipeline cu ny; = 0. Actualele proce- 
soare pipeline, cu un număr finit de subtuncţii şi, prin urmare, o valoare 
finită a lui my, se află între procesoarele seriale perfecte şi paracalcula- 
toar, funcţie de lungimea performanţei jumătate. Astfel (caracterizat, ob- 
ținem spectrul calculatoarelor descris în $1.3.4 și prezentat în fig. 1. 15. 


5.1.4 Întirzieri datorate operaţiilor de transfer 


Am menţionat deja că timpul transferului informaţiilor între diferitele 
elemente procesoare ale unui masiv poate avea un efect important asupra 
para-eficienţei algoritmilor implementaţi pe astfel de calculatoare. Aceste 
întârzieri pot fi relativ neimportante, dacă timpul pentru execuţia unei 
operaţii aritmetice este mult mai mare decit timpul pentru transferul infor- 
maţiei între elementele procesoare ale unei perechi, cum este cazul pentru 
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operațiile in virgulă mobilă la ICL DAP. Oricum, dacă timpul de execuţie 
a operaţiei aritmetice este comparabil cu cel pentru transfer ultimul 
joacă un rol important în determinarea performanţei unui algoritm și nu 
poate fi ignorat. Această situaţie intervine la ICL DAP cînd se folosesc cu- 
vinte scurte şi operaţii aritmetice cu întregi, cum se întimplă probabil la 
prelucrarea imaginilor. De exemplu, Jesshope (19803) a arătat că, într-o 
implementare a transformatei teoretice a numerelor la ICL DAP, întirzie- 
rile datorate transferurilor pot reprezenta mai mult de jumătate din timpul 
de execuţie a algoritmului. Alte rezultate privind transferul informaţiilor 
sint prezentate în Jesshope (1980b, e). 


5.1.5 Conilietele de acces la blocurile de memorie 


Întirzierile de transfer reprezintă problema aducerii într-un procesor a 
datelor din diferite părți ale memoriei. O problemă similară pentru un cal- 
culator vectorial pipeline tipic, precum CRAY X —MP, este aceea a conflie- 
tului de acces la memorie care poate interveni cînd datele sînt aduse din 
memoria organizată în blocuri a unei astfel de maşini, la una din unităţile 
aritmetice pipeline. Deşi memoria unor astfel de maşini este descrisă adesea 
ca o memorie RAM de mai multe Mw, această prezentare este înșelătoare. 
Ar fi aproape imposibil să se asigure o conexiune paralelă separată între 
fiecare cuvint, de memorie şi unităţile pipeline. În practică aceste memorii 
sint împărțite într-un număr relativ mic de blocuri independente. La CRAY 
X—MP cu o memorie de 2 Mw există 16 blocuri a 128 Kw, fiecare bloc 
avînd posibilitatea, să servească simultan o cerere distinctă de acces la 
memorie. Blocurile sint numerotate de la 0 la 15 și ordonate ciclic în sec- 
venţa numerelor cu blocul 0 urmind blocului 15. Un vector continuu este 
un vector ale cărui elemente sint memorate în blocuri succesive și prin ur- 
mare diferite. Prin urmare aceste elemente pot fi accesate la cicli succesivi 
ai ceasului. Aceasta este viteza maximă de livrare a datelor (descrisă ca o 
lărgime de bandă de 1 cuvint pe o perioadă de ceas) şi coincide cu viteza 
maximă la care o unitate aritmetică pipeline poate accepta operanzi. In- 
tervin întirzieri dacă viteza de transfer este mai mică decit cea maximă, 
Aceasta se întîmplă cînd se efectuează o cerere de acces la memorie la un 
bloc care este încă ocupat cu servirea unei cereri anterioare. Acest fenomen 
este cunoscut drept conflictul de acces la un bloc de memorie. 


La CRAY X—MP un bloc de memorie este ocupat 4 perioade de ceas 
cînd servește o cerere de acces, iar o nouă cerere nu poate fi acceptată în 
acest interval de timp. Totuşi, cererile la blocurile diferite care nu sint 
ocupate pot fi efectuate în cursul unor perioade de ceas succesive. Este evi- 
dent că fiecare al patrulea element al unui vector contiguu poate fi accesat 
la viteza maximă deoarece cererile la oricare bloc intervin la intervale de 
4 perioade de ceas, tocmai cînd blocul a finalizat cererea anterioară. Dacă 
totuşi s-au efectuat cereri în cursul unor perioade de ceas succesive la fie- 
care al optulea element al vectorului, ele vor ajunge la fiecare bloc la fiecare 
2 perioade de ceas în timp ce blocul este încă ocupat cu cererea anterioară. 
Prin urmare, fiecare al optulea element al vectorului poate fi accesat numai 
la jumătate din viteza maximă, deși valorile succesive sînt înregistrate în 
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blocuri de memorie diferite. Fiecare al 16-lea element al vectorului este 
memorat în același bloc de memorie şi valorile succesive pot fi accesate 
în cel mai bun caz la 4 perioade de ceas, adică la un sfert din viteza maximă. 

Prin urmare, este evident că în selectarea unui algoritm pentru o ma- 
şină cu o memorie organizată pe blocuri, conflictele de acces la memorie 
trebuie evitate. Din păcate mulţi algoritmi numerici buni se bazează pe 
înjumătăţirea sau dublarea recursivă şi implică referinţe succesive la date 
aflate în locaţii de memorie separate printr-o putere a lui 2 (de exemplu, 
transformata Fourier rapidă, vezi $ 5.5.2). De asemenea, se obișnuiește să 
se înmulțească matrici al căror număr de linii sau coloane este o` putere a 
lui 2. Deoarece, de obicei numărul blocurilor este ales ca o putere a 
lui 2, conflictele de acces la memorie pot interveni foarte ușor. Acesta este 
m Pe ie pentru neatingerea performanței supervectoriale de către 

RAY —1. 

Astfel de conflicte pot fi minimizate prin considerarea atentă a modului 
de memorare a matricei. Să considerăm o matrice 16 x 16 înregistrată 
coloană cu coloană într-o memorie formată din 16 blocuri. Compilatorul 
FORTRAN foloseşte această strategie de memorare în mod obişnuit. Ele- 
mentele succesive ale oricărei coloane sau ale diagonalei principale sau se- 
cundare pot fi accesate la viteza maximă deoarece sînt înregistrate în blo- 
curi de memorie diferite. Totuși, toate elementele aceleiași linii sint înre- 
gistrate în acelaşi bloc şi nu pot fi accesate succesiv pentru operaţii cu linii 
fără conflict de acces. Această problemă poate fi rezolvată prin program 
prin adăugarea unei. linii şi coloane false la matrice. Aceasta .va fi apoi 
memorată ca o matrice 17 x 17. Elemântele succesive ale oricărei coloane 
(interval de memorare de 1 bloc), linie (interval 17 blocuri), sau diagonalei 
principale (interval 18 blocuri) pot îi accesate fără conflict. Numai accesele 
la, diagonala secundară (interval de memorare 16 blocuri) conduce la; con- 
flict de acces, dar acest mod este rar în cazul operaţiilor cu matrici. 

Conflictele de acces la memorie pot fi minimizate în modul menționat 
anterior, dacă numărul blocurilor de memorie este ales un număr prim. 
Calculatorul BSP utilizează această soluție hardware, avind 17 blocuri de 
memorie. În exemplul de mai sus al matricei 16 x 16, toate liniile, coloa- 
nele și diagonalele poi fi accesate fără conflict. O caracteristică importantă 
a unui număr prim de blocuri de memorie (altul decit 2) este că referinţele 
la elementele unui vector, separate printr-o putere a lui 2 2, cum intervin 
repetat în algoritmii cu dublare succesivă, nu pot fi adresate aceluiaşi bloc 
de memorie. 


5.1.6 Metoda n. de analiză a algoritmului vectorial (SIMD) 


Apariția noii generații de calculatoare vectoriale pune analistului noi 
probleme. După ce s-a răspuns satisfăcător întrebărilor privind conver- 
genţa numerică şi precizia rezultatului, rămîne problema alegerii celui mai 
bun algoritm pentru rezolvarea unei anumite probleme pe un calculator 
particular. Dacă considerăm că „cel mai bun” este similar cu timpul de 
execuţie cel mai mic, atunci este necesar să ţinem seama de caracteristicile 
de viteză ale hard-ului și soft-ului asociat. Considerăm că metoda ni de 
analiză a algoritmilor este un mod rațional de då introduce aceste caracteris- 
tici în metoda de alegere (Hockney 1982, 1983, 1984b). Parametrul n, a 
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mai fost; folosit pentru evaluarea performanţelor de către Arnold (1983), 
Gannon și Van Rosendale (1984), Neves (1984), Strakos (1985, 1987) şi 
Schânauer (1987). - i 


Pentru a evalua timpul de execuție al unui calculator serial, este ne- 
cesar să cunoaștem numai numărul total de operații aritmetice — denumit 
adesea ca activitate (work) — deoarece timpul de ealculator este direct 
proporțional cu această cantitate. În acest caz optimizarea este directă 
deoarece a minimiza timpul este acelaşi lucru cu minimizarea numărului 
total de operaţii aritmetice, condiţie folosită în mod tradiţional de cînd s-ă 
construit primul calculator von Neuman. La un calculator vectorial, situa- 
ţia este totuşi mult mai complexă deoarece o parte din activitatea este 
reprezentată de un număr mai mic de operaţii vectoriale, unde multe ope- 
rații aritmetice sînt executate în paralel fie de o anumită unitate pipeline, 
fie simultan de mai multe unităţi aritmetice. Cu fiecare operaţie vectorială 
se asociază un timp de overhead. Acest overhead este proporţional cu para- 
metrul n/a al calculatorului şi trebuie inclus în comparaţie. De fapt, calcu- 
latoarele vectoriale diferă adesea mai mult prin numărarea, acestui over- 
head decit prin pertormaţa asimptotică. De aceea, la estimarea timpului de 
execuţie al unui algoritm pe un calculator vectorial este necesar să se cu- 
noască, şi să se includă, atit efectul numărului de operaţii aritmetice, cît 
și al numărului de operaţii vectoriale. Metoda n, de analiză a algoritmilor: 
asigură o metodologie pentru includerea ambelor cantităţi în analiza de 
timp, rezolvînd astfel problema mult mai dificilă a minimizării timpului 
la un calculator vectorial. Condiţia tradițională de minimizare a numărului 
de operaţii aritmetice este, simplu, incorectă şi, în particular, vom vedea că 
algoritmii cu numărul de operaţii artimetice minim nu se execută în mod 
necesar într-un interval de timp minim. i 


(i) Vectorizarea. 


Prima etapă în modificarea unui program existent, pentru a fi executat 
pe un calculator paralel, constă în reorganizarea codului, astfel încît cît mai 
multe bucle DO să fie înlocuite de instrucțiuni vectoriale în timpul proce- 
sului de compilare, prin folosirea unui compilator vectorizant. Procesul vec- 
torizării poate fi tot ce se poate face, şi lasă programul compus din două 
părți : o parte scalară ce va fi executată de unitatea scalară a calculato- 
rului, şi o parte vectorială ce va fi executată de unitatea vectorială. Adesea 
To al unităţii scalare este de 10 ori mai mic decit ra al unităţii vectoriale, 
astfel că timpul de execuţie al algoritmului va depinde în primul rînd de 
dimensiunea părţii scalare din cod (vezi $1.3.5 şi fig. 1.19). Există mulţi 
algoritmi asociați în mod particular cu rezolvarea ecuaţiilor cu derivate 
parţiale, în care toate operaţiile aritmetice în virgulă mobilă pot fi execu- 
tate cu instrucţiuni vectoriale, din care vom prezenta citeva exemple în 
acest capitol. Pentru acești algoritmi cea mai bună organizare a vectorilor 
(adică alegerea elementelor ce-i compun şi a lungimii lor) este de o mare 


importanță. Se prezintă metoda n, de analiză a algoritmilor vectoriali 
ca o tehnică pentru optimizarea rațională a algoritmilor vectoriali, sau a 
părţilor vectoriale a codurilor mai complexe care posedă în mod inevitabil 
Şi părţi scalare, Pi 


363 


În monografia lui Gentzsch (1984) se trec în revistă tehnicile de vec- 
torizare cu referiri la CRAY —î, CYBER 205, HITACHI S9 cu IAP, ICL 
DAP și Denelcor HEP. Alte lucrări cu acest subliect sînt cele ale lui Wang 
(1980), Swarztrauber (1982), Arnold (1983) Bossavit (1984) şi Neves (1984). 
Cel mai bun vectorizator automat cunoscut, este probabil cel realizat la 
Universitatea Illinois de Kuck (1981) şi colaboratorii săi, denumit sistemul 
parafrase. Xasamura et al (1984) şi Schonauer (1987) analizează tehnicile 
de vectorizare, iar performanţele a trei vectorizatori automaţi, inclusiv 
parafrase, sint comparate de Arnold (1982). i 


(ii) Bcaluarea timpului de execuție al algoritmului 


Presupunerea cea mai simplă privind evaluarea timpului de execuţie 
este că algoritmul vectorial constă dintr-o secvenţă de instrucţiuni vecto- 
riale şi că timpul de execuţie al unei instrucțiuni vectoriale depinde liniar 
de lungimea vectorului şi poate fi exprimat pe baza parametrilor (f.o 1/2) 
cu formula (1.43): 


= rain + num) (5.2) 


Timpul T consumat pentru execuţia algoritmului este : 
i=q 
T = Y răni + Dupa) (5.3) 
i=l 


unde q este numărul operaţiilor vectoriale ce constituie algoritmul, iar n, 
este lungimea vectorului în cazul operaţiei vectoriale a i-a. Dacă parametrii 
Too Şi na Sint aproximativ constanţi pentru toate operaţiile, sau se consideră 
valori medii corespunzătoare, ră $i n/a pot fi scoşi în factori : 


T = rs + Ny -QY . (5.4a) 


unde 


este numărul total de operaţii aritmetice ale algoritmului. 
În alt mod, formula (5.43) poate fi rescrisă în termenii lungimii medii 
a vectorului, n : 


T = rza(a + Nya) (5.4b) 
sau ca 
T = ro8[1 + (Bspa[î)] i (5.4e ) 


nnde n = s/q. Expresia din paranteze pătrate a execuției (5.4c) este fac- 
torul prin care o analiză tradițională a complexității seriale, r's, furni- 
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zează erori cînd te aplică în cazul vectorial. De asemenea, arată că nu va- 
loarea absolută a lui n4; este importantă, ci raportul ei la lungimea medie 
a vectorului : niñ. 


(iii) Complexitatea serială şi paralelă 


Ecuația (5.43) este interesantă prin aceea că relevă legătura dintre 
analiza numerică serială tradițională şi lucrările recente asupra algoritmilor 
paraleli. Altfel spus, arată legătura între analizele de complexitate serială, 
şi paralelă ale algoritmilor. Un calculator serial are un n, mic sau nul, de 
aici numai primul termen al ecuaţiei (5.4a) este important, iar timpul 
minim de execuţie se obţine prin minimizarea lui s, care indică numărul 
total de operaţii aritmetice. Analiza algoritmilor paraleli se bazează pe 
folosirea conceptului de paracalculator, care este caracterizat de na= oo 
(vezi $ 5.1.3). În acest caz, numai al doilea termen al ecuaţiei (5.4) este 
important, iar timpul minim de execuţie se obţine prin minimizarea numă- 
rului de operaţii vectoriale, qg, fără a considera numărul total de operaţii 
aritmetice implicate. Aceste două perspective contrastante ale optimizării 
algoritmilor au condus la o dihotomie în comunitatea specialiştilor în pro- 
iectarea algoritmilor şi analizei numerice, între cei care locuiesc” în lumile 
„serială” şi „infinit paralelă”, deoarece pentru rezolvarea aceloraşi pro- 
bleme se recomandă frecvent algoritmi destul de diferiți. Considerăm că 
diferențele între cele două perspective sînt eliminate prin utilizarea meto- 
dei de analiză n/a- 

Ambele direcţii ale optimizării algoritmilor sint extreme nerealiste, 
deoarece calculatoarele vectoriale actuale au de obicei un n, finit, nenul 
(de exemplu, CRAY —1 are o valoare aproximativ egală cu 20, iar CYBER 
205 o valoare aproximativ egală cu 100). Intervine atunci întrebarea : „ce 
trebuie minimizat în cazul unui calculator cu n; finit?” Ecuația (5.42) 
arată, că răspunsul constă în aceea că nu trebuie minimizaţi nici s nici q, 
ci cantitatea ($ + niq). Metoda de analiză n, face tocmai acest lucru. 
Lungimea performanţei jumătate n, este considerată ca parametrul care 
interpolează liniar între perspectivele extreme serială și infinit paralelă. În 
acest mod paralelismul finit al unui sistem de calcul poate fi introdus în 
analiză. Avantajul principal al metodei este că nimeni nu trebuie să de- 
cidă, în mod nerealist, dacă calculatorul este serial sau paralel; gradul de 
paralelism se introduce odată cu valoarea corectă a lui na. 


(iv) Diagramele de fază algoriimice 


Cind comparăm algoritmii pentru aceste calculatoare, considerăm ra- 
portul celor două expresii de evaluare a timpului de execuţie al ecuaţiei 
(5.4). Algoritmul este complet descris prin furnizarea valorilor s şi q (sau 
ñ și q, sau 7 şi 8), iar calculatorul prin cei doi parametri fæ Și haya. În cazul 
acestui raport, 7 se reduce. Astfel, în cadrul aproximărilor acestor analize, 
nya este singura proprietate a calculatorului care influențează alegerea 
algoritmilor. 

„Cind se compară algoritmi, liniile de egală performanţă (EPL) joacă 
un rol cheie. Dacă T(a) şi T(b) sint timpii de execuţie pentru algoritmii (a) 
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şi (b), atunci performanţa lui (a) este mai mare sau egală cu cea a lui (b), 
p(a) > p(b), dacă T(a) > T(b), de unde se obţine l ai 


gta — gb) 


Da a aroro - (5.5) 


Inegalitatea (5.5) determină regiunile unui plan unde fiecare algoritm are 
performanța cea mai bună, iar egalitatea furnizează formula pentru EPL 
între algoritmii (a) şi (b). 
Datorită naturii caracterizării, nį; intervine întotdeauna liniar în 
ecuaţia pentru liniile de performanţă egală. De aceea trebuie trecut explicit 
în membrul stîng al unei astfel de ecuaţii. Este o proprietate a calculato- 
rului, observată prin compilatoarele şi asambloarele care sînt folosite. Pe 
de altă parte, membrul drept depinde numai de numărul operaţiilor din 
cei doi algoritmi, şi poate fi o tuncţie neliniară complicată ce depinde de 
dimensiunea problemer n.n poate îi ordinul matricilor într-o problemă cu 
matrice, sau numărul punctelor într-un caroiaj în cazul unei aproximaţii cu 
diferenţe finite a unei probleme cu ecuaţii diferenţiale parţiale. 
Modul cum se prezintă rezultatele comparaţiei între algoritmi este 
important. Formule ca (5.5) conţin rezultatul, dar nu pot fi folosite fără 
un proces de calcul extensiv, iar în cazuri complicate intervin tabele de 
numere ce nu pot fi folosite. Se preferă, evident, o reprezentare grafică, care 
ar permite. alegerea; algoritmului direct pe baza informaţiilor ce definesc 
problema. O astfel de prezentare se poate face prin trasarea liniilor de per- 
formanţă egală între perechi de algoritmi în planul (4,2, n). Aceste linii vor 
împărţi planul în regiuni în care fiecare algoritm are cea mai bună perfor- 
manţă. Denumim o astfel de prezentare o „diagramă a fazelor” în analogie 
cu diagramele folosite în chimia fizică. În cazul diagramei de fază chimică, 
valorile parametrilor descriu condiţiile (de exemplu, temperatură şi pre- 
siune) ce determină un punct în planul care este împărţit în regiuni unde 
diferitele stări ale materiei au nivelele de energie cele mai mici. Se poate 
spune că natura alege apoi o stare ca cea mai bună pentru material. În 
cazul diagramelor de fază algoritmice, parametrii ce descriu calculatorul și 
dimensiunea problemei determină un punct în planul împărţit în regiuni 
unde fiecare algoritm are timpul de execuţie cel mai mic. Apoi se alege acest 
algoritm ca cel mai bun. 
Adoptarea anumitor standarde în prezentarea unor astfel de diagrame 
este avantajoasă, pentru a facilita comparaţiile. De obicei se alege axa x 
egală sau proporţională cu nyja iar axa y egală sau proporțională cu dimen- 
siunea, problemei n. În acest mod algoritmii convenabili pentru calcula- 
toarele mai seriale (n/a mic) apar în stinga diagramei, iar cei adecvaţi pentru 
calculatoarele, mai paralele (nuj mare) în partea dreaptă. În mod 
similar, algoritmii buni pentru probleme de mică amploare apar în 
partea inferioară a diagramei iar cei pentru probleme complexe în partea 
superioară. Pentru ambele axe este de dorit o axă logaritmică. În fig. 5.3, 
5.9, 5.10, 5.26 şi 5.28 (Hockney 1982, 1983) se prezintă citeva exemple de 
diagrame de fază algoritmice. În § 5.2.3. intervine un exemplu simplu de 
construire și interpretare. Se compară doi algoritmi. În lucrarea lui Hockney 
(19873) apare un exemplu mult mai complex pentru 4 algoritmi. Fig. 5.28 
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prezintă comparaţia a doi algoritmi, furnizind cea, mai bună valoare pentru 
un parametru de optimizare ce poate îi folosit în planul fazelor. 

Am văzut, conform ecuaţiei (5.4c), că raportul n,;/ñ este mai impor- 
tant chiar decât n. Similar, diagramele de fază ale algoritmilor sînt dese- 
nate mai compact dacă axa x este egală, cu raportul 7,;a/n. Acest raport, 
mai degrabă decit n, Singur, determină dacă calculele se execută într-un 
mediu serial (valori mici), sau mediu paralel (valori mari). De asemenea, 
raportul are avantajul independenţei faţă de unităţile folosite pentru măsu- 
rarea, lui n. 


(2) Algoritmi vectoriali seriali și paraleli 


În proiectarea algoritmilor vectoriali este avantajos să se distingă două 
formulări extreme ale aceleiaşi metode de bază, adică două structuri dife- 
rite ale aceloraşi relaţii algebrice/numerice care definesc metoda numerică, 
Acestea sint : 

(1) Varianta serială a algoritmului vectorial, obţinută prin minimi- 
zarea numărului total de operaţii aritmetice s — denumirea este dată de 
faptul că timpul de execuţie va îi minim cînd execuţia se realizează De un 
calculator serial, unde n,a = 0; 

(2) Varianta paralelă a algoritmui vectorial, care se obține prin mini- 
mizarea numărului de operații vectoriale g (sau, echivalent, maximizind 
lungimea vectorului mediu 4) — această variantă se va executa într-un 
timp minim pe un calculator infinit paralel, unde n,;, = co, sau pe un masiv 
de procesoare care posedă un procesor pentru fiecare element al vectorului 
cel mai lung. 

. Analizele ce urmează se limitează la aceste două soluții. În situații 
mai complexe, pot fi dezirabile variante hibride ale celor două soluţii ex- 
treme. De exemplu, dacă într-o problemă lungimea vectorului este mult 
mai mare decit numărul procesoarelor unui masiv, atunci varianta serială, 
poate fi folosită adesea pentru a reduce lungimile vectorilor la mai puţin 
decit dimensiunea masivului, după care se poate folosi varianta paralelă. 


(zi) Unatăţile scalară şi vectorială 


Metoda de analiză n, 2 reprezentată ca diagrama, de fază logaritmică, 
poate fi folosită, de asemenea, pentru compararea performanțelor unui 
algoritm scalar, executat de unitatea scalară a unui calculator, cu perfor- 
manta unui algoritm vectorial echivalent, executată; de unitatea vectorială, 
a aceluiaşi calculator. Dacă presupunem că algoritmul scalar are st) ope- 
raţii în virgulă mobilă, atunci timpul de execuţie al algoritmului scalar în 
unitatea, scalară este 


T: = 8E (5.6a) 
unde Pa este performanţa unităţii scalare. Dacă unitatea vectorială este 


caracterizată de parametrii ((fæy: Pay2) timpul de execuţie al algoritmului 
vectorial va fi. - . 


T, = (50 + Dupa; /roov -(5.6b) 
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unde exponentul (v) indice numărul operaţiilor algoritmului vectorial. 
Formula pentru linia de egală performanţă între cele două alternative este 
definită de condiţia T, = T,, deci 


Diy = (Reos(8) — s) /q0 (5.7) 


unde Ra = (roov/fas) este raportul performanţelor asimptotice ale unităţilor 
vectorială şi scalară. În fig. 5.3 (a) se prezintă un exemplu de comparaţie 
pentru problema adunării unei mulţimi de numere. 


(vii) Variatia lui Too niz 


Formularea metodei de analiză a algoritmilor n4, prezentată ante- 
rior, se bazează pentru simplitate pe presupunerea că cei doi parametri 
(Tæ D172) pot fi considerați constanți şi, deci, pot fi scoşi în factori în ecuația 
(5.3). Această presupunere nu se verifică întotdeauna practic, deoarece, 
aşa cum am arătat în capitolul 2, cei doi parametri au pentru cazuri dife- 
rite (cum sînt operaţiile cu registre sau memorie, vectori memoraţi în locaţii 
succesive sau nu, operaţii cu doi sau trei operanzi etc.) valori diferite. Dacă 
variațiile (ro; n2) sint mari pentru aceste cazuri diferite, suma din ecuația 
(5.3) poate fi împărţită în mai multe subsume, cîte ună pentru fiecare tip 
de operaţie şi, astfel, se pot folosi valori diferite ale parametrilor. Astfel, se 
pot folosi valori medii (7 7/2) deduse cu 


de (2: Dy T = în ba t (5.8 a) 


Too,  Too,k q 


unde (few Ruzx) sînt parametrii pentru operaţia aritmetică de tip X, iar 
8, Și q, sint numerele de calcul pentru operaţia de tip k. Timpul de execuţie 
al algoritmului este i 


T = fa HBa) (58b) 


unde $ = 5,8, $i q = Eq sint numerele totale de calcule. 

Calcularea valorii medii este similară cu calcularea performanţei medii 
a unui calculator, folosind tipuri diferite de instrucţiuni (de exemplu, pa- 
chetul Gibson sau Whetstone). (93/9). ṣi (q,/q) sînt fracţia din calculele 
aritmetice, respectiv operaţii vectoriale ale operaţiei k. Important 
este că aceste rapoarte sînt relativ independente de dimensiunea 
probemei n şi analiza poate continua cu 2,2 în loc de ni. În cele mai 
multe cazuri va fi indicat să se considere ra și %1; constanţi şi să se 
interpreteze diagramele de fază algoritmică pentru gama de valori ale 
parametrilor care intervin. 


5.1.7 Metoda S, de analiză a algoritmilor MIMD 

Extinderea metodologiei anterioare la calculul MIMD cu fluxuri mul- 
tiple de instrucțiuni impune definirea unei metode de calcul destul de dife- 
vită, pentru care se foloseşte conceptul de segment de lucru prezentat în 
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$ 1.3.6 (Hockney 19848, 1985a, 11985c, Hockney şi Snelling 1984). Un 
segment de lucru este o secțiune de program în care activităţile pot îi îm- 
părţite între mai multe fluxuri de instrucțiuni logic independente (care nu 
comunică). Aceste fluxuri pot fi interpretate ca procese separate de către- 
calculatorul Denelcor HEP cu un singur PEM, sau se pot executa de către 
procesoare separate într-o arhitectură multiprocesor, sau HEP cu mai 
multe PEM. Din punct de vedere al modelului de calcul, toate aceste situa- 
ţii se tratează în cadrul aceleiaşi analize, ca fluxuri separate de instruc-. 
țiuni. Esența segmentului de lucru este că se sincronizează calculele îna- 
intea, şi după fiecare segment. Deci, toate operaţiile unui segment trebuie 
terminate înainte să înceapă execuţia următorului. Timpul t, de execuţia 
al unui segment este suma timpului de execuţie al celui mai lung flux de 
instrucţiuni plus timpul de sineronizare al fluxurilor multiple, cu alte cu- 
vinte din ecuaţia (1.16): 


t = T3(8,/ Eu = 512) (5.9) 


unde s, este numărul operaţiilor în virgulă mobilă între perechi de numere 
in segmentul de lucru i, pe care îl denumim în continuare cantitatea de 
muncă dm segment, sau granularitatea segmentului ; E, este eficiența, Ep, 
a utilizării procesului în segmentul de lucru + (indicele p este eliminat); 
To este performanța asimptotică (sau maximă) în Mflop/s ; și S1; este over- 
head-ul de sincronizare măsurat în operaţii în virgulă mobilă echivalente. 

Atit valoarea lui ru cât şi a lui sp» din ecuaţia (5.9) depind de numărul 
fluxurilor de instrucţiuni sau procesoare folosite. De exemplu, dacă sînt 
p procesoare, Pa din ecuaţia (5.9) va fi de p ori performanţa asimptotică a 
unui singur procesor. Şi valoarea lui s, depinde de: tipul sineronizării şi 
eficienţa instrumentelor software pentru sincronizare. Valorile măturate 
ale lui (foo 342) pentru cazuri diferite cînd execuţia se realizează pe CRAY X- 
MP sînt prezentate în $ 2.2.6 (Hoekney 1985a), pentru Denelcor HEP în 
capitolul 3 (Hockney 19843, 1985c, Hockney şi Snelling 1984), iar pentru 
FPS-5000 în lucrarea lui Curington și Hockney (1986). 

Avind stabilit timpul de execuţie pentru un segment de lucru, putem 
lua în considerare timpul de execuţie al unui program MIMD. În orice 
program MIMI), va fi o cale critică, al cărei timp de execuţie va ti timpul 
de execuţie al întregului program. În unele cazuri calea critică este evidentă 
(poate fi o singură cale), dar în altele poate fi foarte dificil să se determine, 
cînd, de exemplu, depinde de date gi rămîne necunoscută pînă în momentul 
execuţiei. Totuşi, pentru a continua analiza, trebuie să presupunem că 
traseul critic este cunoscut. Timpul de execuţie T al unul algoritm MIMD 
se calculează prin sumarea ecuaţiei (5.9) pentru fiecare segment de meru 
de-a lungul căii critice, 


T = ra ((8/E) + 8254) (5.10) 


unde q este numărul segmentelor de lucru de-a lungul căii critice a algorit- 


g man 
mului, s = Ş; seste cantitatea de operații de-a lungul căii critice, iar £= 


i=l 
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ş | 
= | y 2) este eficiența medie a utilizării procesului de-a lungul căii 
i=l 

critice a algoritmului. i 

Pentru algoritmii care corespund acestui model de calcul, observăm că 
mediul de programare (hardware, software și posibilitățile compilatorului) 
este descris de perechea de parametri (Fo 81/2) În timp ce algoritmul pro- 
priu-zis este caracterizat de tripletul (s, g, E). Ca şi în cazul calculului SMD, 
Tæ dispare la compararea performanțelor a, doi algoritmi MIMD executaţi 
pe acelaşi calculator. Astfel, s, rămîne parametrul calculatorului care 
determină alegerea celui mai bun algoritm MIMD. 

Comparînd ecuaţiile (5.9) și (5.10) cu (5.2) şi (5.4 a), se observă analogia, 
dintre calculele SIMD şi MIMD. Granularitatea unui segment $, sau mai 
corect s/£,, este analoagă cu lungimea vectorului n; overhead-ul de sin- 
cronizare, măsurat de $; este analog cu lungimea, performanței jumătate, 
nı La fel, se pot compara algoritmii MIMD prin folosirea diagramelor de 
fază algoritmice. 


în. $1.3.6 se arată, şi este evident conform analogiei de mai sus, că di- 
menșsiunea granularităţii unui segment de lucru trebuie să , depăşească, sız 
dacă se doreşte ca viteza de execuție medie a segmentului să treacă de 50% 
din cea maximă (presupunem E, = 1). 

Deoarece in sistemele MIMD costul comunicaţiei între fluxurile de ins- 
trucţiuni este adesea, mare, valoarea lui sı; tinde să fie mare, adesea mai 
multe sute sau mii de operaţii in virgulă mobilă. De aceea este important 
să împărţim un algoritm MIMD în blocuri de cod mari, independente alo- 
cate unor fluxuri diferite de instrucţiuni, ceea ce conduce la valori mari 
pentru s, Această operaţie se poate realiza cel mai bine prin execuţia para- 
lelă a diferitelor instanţe ale buclelor DO cele mai exterioare de unde şi 
denumirea de paralelism la nivelul cel mai exterior al unui program. Acest 
mod de programare este opus modului SIMD, unde buclele DO cele 
mai interioare ale programului se paralelizează prin înlocuirea cu instruc- 
ţiuni vectoriale. Din păcate, paralelizarea la nivelul cel mai exterior solicită 
o cunoaștere de ansamblu a structurii programului, şi este mult inai dificil 
de automatizat decit vectorizarea buclelor DO simple sau duble, care se poi 
executa în urma unei examinări locale a programului. În consecință, parale- 
lizarea unui program pentru calculul MIMD solicită probabil mult mai mult 
inetrvenția programatorului, decit vectorizarea unui program pentru cal- 
culul SIMD, şi poate impune uneori restructurarea intregului program. 


5.2, Recurenţe > a ZE 


O recurenţă este o secvenţă; de evaluări în care valoarea ultimului 
termen din secvenţă depinde de unul sau mai mulţi din termenii calculaţi 
anterior. Recurenţele intervin deseori în analiza numerică : în rezolvarea 
ecuaţiilor liniare prin eliminarea Gauss ; în toate operaţiile cu matrici care 
solicită produsul interior al vectorilor ; in toate metodele iterative, deoa- 
rece o aproximare mai bună a unei soluții se calculează pe baza aproximă- 
rilor anterioare ; în toate soluţiile ecuaţiilor diferenţiale ordinare în timp, 
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deoarece valorile la, un moment dat depind de cele găsite la momente ante- 
rioare; şi în metodele pentru rezolvarea ecuațiilor diferenţiale în spaţiu. 

Evaluarea unei recurenţe reprezintă o problemă specială pentru un 
calculator paralel deoarece chiar definiţia este dată în termenii unei eva- 
luări secvenţiâle, şi ar rezulta că numai un termen poate îi evaluat la un 
moment dat, nerezultind nici un orizont pentru evaluarea paralelă; De 
prisos să spunem că problema, poate fi reformulată (la costul unor operaţii 
aritemtice suplimentare) astfel încît să permită evaluarea paralelă. Vom 
exemplifica această soluţie în primul rînd în ter menii problemei simple a. 
evaluării sumei unei secvenţe de numere ($5.2.1 și $5.2.2). În ultima parte 
($5.2.3) tratăm despre introducerea paralelismului în — se mai poate spune 
vectorizarea — recurența generală, liniară de prim ordin. Algoritmi para- 
leli pentru rezolvarea recurenţelor au mai dear Kogge și Sime (1973) Şi 
Ladner. aii (1980). 


5.2.1. Suma seevenţială 


Recurenţa generală liniară de prim ordin poate fi exprimată ca eva- 
luare a secvenţei gy cu relația de recurenţă : 


Xj = aptă a + d pentru j = 1,2,...,n (5.112) 


cu valorile cunoscute Xo, Qy-::5 Ga Și dize: da. Dacă presupunem că xo = 
= a, = 0 nu se pierde generalitatea și apare un avantaj considerabil. Pre- 
supunerea, poate fi realizată dacă redefinim d, ca d, + a*2oy ceea ce vom 
considera în continuare. 


Ca un caz particular al celui anterior (a, = 1) vom considera în primul 
rind evaluarea sumei parțiale x, definită cu : 


X; = b3 d, pentru j = 1, 2, ...] n (5.11b) 
kel 


unde x; este suma primelor j numere din secvenţa dy; ..-, da. 
Sumele parțiale pot fi evaluate ușor cu recurenţa : 


X; = Xj +d; pentru jJ = 1, 2, na n (5.11c} 


Această metodă secvenţială, de evaluare poate îi realizată cu (n — 1) 
sume de următorul cod FORTRAN : 


X= DN) 
DO 1 J=2,N (5122) 
1 X 0)=X0-—0+ DU) i 


Relaţia dintre modul de memorarea operanzilor, operaţii aritmetice şi 
timp poate îi prezentată printr-o diagramă, în figura 5.1, pentru n = 8. 
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Secvența, evaluărilor are loc din partea inferioară în sens ascendent ; ope- 
rațiile ce pot fi executate în paralel se prezintă pe același nivel orizontal. 
Este clar că la fiecare nivel, corespunzător unui moment de timp, se poate 
executa numai o operație (paralelism=—1), şi spunem că algoritmul de suma- 
re tecvenţială are i 


n — 1 sume cu paralelism 1 (5.12b) 
iar numărul de operaţii este 
s=n-—lg=n-l n=1 (5.12c) 


Pentru a cuantifica transferul, presupunem că în fig. 5.1 axa orizon- 
tală indică poziţia relativă a datelor în memoria unui calculator serial sau 


Xa 


d dh d d d d7 a 
PE PEZ PE3 PE, . PEs As Piy - PEg. 


Fig. 5.1 Desfăşurarea în timp a execuţiei metodei de sumare 
parțială pentru calcularea tuturor sumelor parţiale a 8 nu- 


i 
mere, xj = $ dy, j= 1, ..., 8. Axa verticală este timpul, 
k=1 


cea orizontală reprezintă numărul locațiilor de memorie sau 
a elementelor procesoare. Transferul datcior prin memorie 
este indicat cu săgeți. 


pipeline, iar în cazul unui masiv de procesoare, numărul acestora. Varia- 
bilele din aceeaşi poziţie orizontală nu se suprapun în mod necesar. Dacă nu 
se cere rescrierea rezultatelor în aceleași locaţii de memorie, aceste variabile 
pot fi memorate în locaţii diferite ale aceluiaşi procesor din masiv, sau în- 
tr-o secvență diferită de locaţii ale unui calculator serial sau pipeline. 

O operaţie de transfer paralelă unitară este definită ca o deplasare a 
tuturor elementelor unui masiv în paralel la o serie de procesoare vecine. 
În cazul cel mai simplu al topologiei vecinătăţii proxime într-un masiv 
uni-dimensional de procesoare, aceasta poate însemna deplasarea tuturor 
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elementelor unui procesor la dreapta sau la stinga. Într-un masiv de proce- 
soare bidimensional, cum este ICL DAP, o unitate de transter poate deplasa 
toate elementele unei matrice bi-dimensionale, memorată de masivul de. 
procesoare, către procesoarele vecine pe direcţia N, S, E sau V. La un masiv 
de procesoare, după o operație paralelă memorarea poate fi suprimată 
funcţie de starea unui indicator aflat în fiecare procesor. Astfel, numărul 
elementelor efectiv deplasate după o operaţie de transfer paralel este sub 
controlul programului. Numărul elementelor efectiv deplasate (adică uti- 
lizarea unei operaţii de transfer paralel) reprezintă paralelismul operaţiei 
de transfer. 

Analiza figurii 5.1 arată că algoritmul de adunare secvenţială necesită 
un transfer de o unitate la dreapta, la fiecare instanță de timp. În deplasare 
ete implicat numai un număr (valoarea sumei acumulate curente), deci 
paralelismul este 1. Rezultatul este confirmat de faptul că există numai o 
săgeată oblică, ce indică deplasarea unui număr, la fiecare instanţă de timp. 
Prin urmare algoritmul complet necesită l 


n — 1 operaţii de transfer cu paralelism 1. (5.12) 


5.2.2 Adunarea în cascadă 


Soluţia alternativă paralelă la evaluarea sumelor parțiale poate îi înțe- 
leasă, cel mai uşor din diagrama de transfer a algoritmului. Aceasta apare în 
fig. 5.2(a) pentru cazul n = 8, iar algoritmul poartă numele de adunare 
paralelă în cascadă. Un număr de n registre acumulator sint încărcate 
iniţial cu operanzii de sumat. La nivelul 1, o copie a conţinuturilor acumu- 
tatoarelor este deplasată o poziţie la dreapta şi adunată la conținutul 
acumulatoarelor pentru a forma suma operanzilor adiacenţi. La următorul 
nivel, procesul se repetă dar cu o deplasare de două poziţii la dreapta, pro- 
ducind prin urmare sume de grupe de cîte 4 elemente. La efectuarea depla- 
sării, prin stînga se introduc zerouri. În general, la momentul 1, s-a efectuat 
o deplasare de 2' poziţii şi la nivelul ¿ = logn acumulatoarele conţin sumele 
parţiale cerute. 

Metoda, sumării parţiale în cascadă poate fi exprimată într-un limbaj 
vectorial asemănător FORTRAN-ului cu : 


X=D 
DO 1 L = 1, LOG2N (5.13a) 
1 X = X + SHIFTR (X, 2** (L — 1)) 
unde X şi D sint vectori cu n elemente, + este o adunare paralelă a n ele- 
mente şi SHIFTR (X, L) este o funcție vectorială care plasează o copie a lui 
X, deplasată L locații de memorie la dreapta în vectorul temporar SHIFTR. 


Elementele vectorului X nu sint modificate. Prin urmare, această metodă 
necesită 


logn adunări cu paralelism n (5.13b) 
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rezultînd numărul de operaţii 
s = nlogm q=logn î=n (5.136) 


Dacă presupunem topologia de conectare a vecinului proxim, sint 
necesare 2!-1 operații de transfer la nivelul 7, rezultind un total de 1 + 2 + 
+4 +.. + n/2 sau 


n — 1 operații de transfer cu paralelism n (5.134) 


Formalismul descris pentru metoda, sumării în cascadă, care păstrează 
lungimea vectorului la valoarea maximă, n, este indicat pentru masive de 
procesoare, deoarece adunările redundante cu 0 nu consumă timp supli- 


(53 


03, e A 5- „106, 7 «g 
Fig. 5.2(a) Diagrama pentru metoda de adunare paralelă în cascadă cu. 
formarea sumelor parţiale. Odată cu deplasarea vectorului spre dreapta, 
prin stinga se introduc zerouri. Dacă se cere numai totalul x, vor trebui 
executate numai operaţiile marcate de cercurile pline. (b) Metoda Martin 
Dates de calcul al sumelor parțiale 
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mentar. La un calculator vectorial, totuşi este necesar mai puţin timp dacă 
operaţiile redundante se omit, iar lungimea, vectorului este redusă, În acest 
caz metoda solicită, 


1 adunare cu paralelism n—2i-l, 
pentru | = 1,2, .. logn (5.13e) 
rezultind 


s=anlogn —n +1 gq=logzn îszn[l — (log2n)1] (5.13f) 


În cadrul analizei algoritmilor din $5.2.3 vom presupune cä- lungimea vec- 
torului se reduce în acest mod. 

Fiecare operaţie a acestui algoritm are aproximativ un paralelism n 
(ce variază de la n—1 lan/2 dacă lungimea vectorului este redusă). Oricum 
numărul total de operaţii aritmetice scalare a crescut de n — 1 pentru 
metoda adunării secvențiale la nlogan. Costul creşterii paralelismului de la 
1 la m a fost prin urmare creșterea substanţială a numărului: operaţiilor 
aritmeiice scalare. De exemplu, pentru n = 1024, metoda de adunare 
parţială în cascadă solicită un număr de 10 ori mai mare de adunări. La un 
calculator serial care poate executa numai o adunare la un moment dat, 
este evident că metoda sumării parțiale în cascadă nu merită să fie folosită. 
Trebuie să vedem dacă pentru un masiv de procesoare sau un calculator 
pipeline creşterea de performanţă, prin execuţia a n operaţii scalare în 
paralel, este suficientă pentru a depăşi creşterea numărului, total de ope- 
rații (vezi § 5.2.3). 

Algoritmul adunării parţiale în cascadă se simplifică considerabil în 
pere apecial i în care se cere numai rezultatul sumet totale (în cazul nostru 
e). În fig. 5.2 am accentuat cu linii îngroșate şi cercuri pline acele operaţii 

aritmetice şi de transfer care contribuie la calculul lui aș. Trebuie observat 
că acestea reprezintă numai o fractie mică din operaţiile necesare pentru 
calcularea tuturor sumelor parțiale. Calculele pentru suma totală formează 
un arbore binar (cu forma unei cascade), în care numărul operaţiilor şi prin 
urmare paralelismul este înjumătăţit la fiecare nivel 1 al procesului de cal- 
cul. Presupunind, pentru simplitate, că n este o putere a lui 2, numărul 
operațiilor pentru metoda sumei totale în cascadă este : 

1 adunare cu paralelism n2- pentru 1 = 1, 2, ... , logn (5.143) 
Prin urmare, numărul adunărilor scalare este : 


n/2 + n4 ps +2+l=n-l1 (5.14b) 


şi observăm că acest algoritm are acelaşi număr de operaţii scalare ca şi 
metoda adunării secvențiale, chiar dacă. reorganizarea calculului într-un 
arbore binar a introdus posibilitatea calculului paralel. Această metodă 
pentru calculul sumei totale este denumiă în mod obișnuit adunare în 
cascadă. 

Martin Oates a subliniat (într-o comunicare particulară) că sumele 
parțiale mai pot fi calculate în paralel cu aproximativ jumătate din nu- 
mărul operațiilor aritmetice redundante prezente în metoda de adunare 
parțială în cascadă inițială prezentată în fig. 5.2(a). Varianta Martin Oates 
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este ilustrată în fig. 5.2(b). Sumele parţiale se calculează ierarhic. Întâi se 
adună perechile adiacente, apoi acestea se combină pentru a forma sume 
de 4 numere adiacente, acestea se folosesc în continuare pentru calculul 
sumelor de 8 numere ş.a.m.d. La fiecare nivel se execută n/2 sume în 
paralel, iar pentru logn nivele se obţin 


3 = (n 2) login q = logn n=n/2 (5.14€) 


în comparaţie cu aproximativ s = nlogzn rume în cazul metodei. iniţiale. 
Metoda lui Oates pune o problemă de programare, în rensul că Gepla- 
sarea sau îndexarea de la fiecare nivel nu este la fel de regulată ca în cazul 
metodei iniţiale. Dacă se folosește un calculator vectorial, cum este CRAY 
X-MP, deși operaţiile de la fiecare nivel sint independente, ele nu pot fi 
executate cu o singură operaţie vectorială. Ele vor trebui implementate ca o 
secvenţă de operaţii „scalar + vectorial”, deci nu se atinge întregul poten- 
ţial al execuţiei paralele. De exemplu, la ultimul nivel al calculelor din fig. 
5.2(b), scalarul x, se adună la vectorul format din valorile curente ale ul- 
timelor 4 elemente ale masivului d. La nivelul anterior trebuie executate 2 
astfel de operaţii în secvenţă, cu vectori de lungime 2, şi așa mai departe. 
Dacă se foloseşte un masiv de procesare, ca ICI, DAP, sînt necesare 
atit operaţii de deplasare, cit și de mascare, pentru a asigura sumarea co- 
rectă a componentelor. În mod evident, circulaţia datelor exte mult mai 
simplă în cazul iniţial. În orice situatie particulară, trebuie analizate deta- 
liat toate alternativele pentru a deduce dacă reducerea operaţiilor redun- 
dante nu crește prea mult complexitatea programului. Metoda lui Qates 
e: te un caz particular al unei clase de algoritmi pentru așa numitul „calcul 
prefix paralel” pfezentat de Ladner şi Fisher (1980). În continuare vom 
analiza performanţele metodei iniţiale şi vom lăsa ca exerciţiu calculul 
efectului utilizării variantei Oates. 


5.2.3 Performanța relativă 


În continuare se vor compara performanţele metodelor de adunare în 
cascadă şi secvenţială, folosind metoda de analiză n, ($ 5.1.6). Acest model 
de calcul presupune că există o memorie infinită și că nu există conflicte 
de acces la blocurile de memorie. Deşi nerespectată în practică, presupu- 
nerea de mai sus asigură o primă bază pentru alegerea algoritmilor. Un 
programator responsabil de evaluarea sumelor în cazul unui calculator 
real trebuie, desigur, să acorde mare atenție proprietăţilor memoriei. 

Vom considera întîi problema calculului sumei totale, pentru care vom 
compara metoda secvenţială cu cea de adunare în cascadă. Ambele au ace- 
lași număr de operaţii aritmetice, (n — 1). Totuşi operaţia în cascadă are 
mai puţine instrucţiuni vectoriale (logan) decît metoda secvenţială (1—1). 
Prin urmare, este evident că dacă se execută ambii algoritmi în unitatea 
vectorială a unui calculator, întotdeauna metoda în cascadă va fi mai 
bună, deoarece sint mai puţine operaţii de inițializare a operaţiilor vecto- 
riale. Se poate pune intrebarea dacă. nu ar fi mai bine ca metoda secven- 
ţială să se execute în unitatea scalară, eliminindu-se astfel overhead-ul 


376 


asociat, cu operaţiile vectoriale. Unitatea scalară are o rată asimptotică 
mai lentă şi de aceea va interveni o dependenţă de dimensiunea pro- 
blemei. De la o anumită valoare în sus va fi mai bună metoda în cascadă 
executată de unitatea vectorială, care este caracterizată de o performanță 
asimptotică mai înaltă. Pînă la atingerea acelei valori este indicată folo- 
sirea unităţii scalare, chiar dacă are o performanţă asimptotică mai 
scăzută. 
Pentru comparaţie se poate folosi ecuaţia (5.7) cu s® = (n — 1), 
si? = (n — 1), q” = logn, în timp ce ecuaţia pentru linia de performanţă. 
egală, este i 

Nya = [Ro(n — 1) — (n—1)]/logen (5.158) 
Bau 

n/n = (Boo — 1) (1 — n-1)logan (5.15b) 


În fig. 5.3(a) se prezintă diagrama de fază algoritmică pentru un raport al 
vitezelor vectorială şi scalară de Re = 2, 5, 10, 50, 100. Iată interpretarea, 
diagramei. Liniile de n, constant se află la 45° faţă de axă, și apare și 
linia de n = 20 pentru CRAY-1. Calculatorul are Ræ z 10, iar inter- 
secţia între linia de n,/, constant și linia de R constant furnizează valoarea, 
limită a dimensiunii problemei. În general, concluzia este că adunarea a 
pînă la 8 numere trebuie efectuată în unitatea scalară (sau cu instrucţiuni 


la 


1 


w? 101 1 10 102 
nyg’ i 

Fig. 5.3(a) Comparaţie intre metoda de sumare secvenţială exe- 

cutată în unitatea scalară şi metoda de calcul ìn cascadă a sumei 


totale în unitatea vectorială. Roo este raportul intre vitezele vec- 
torială şi scalară. Linia întreruptă corespunde la n/a =20. 
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scalare). în timp ce probleme mai mari trebuie rezolvate de unitatea. vec- 
torială. Este evident, şi se observă pe diagramă, că odată cu scăderea ra- 
portului vitezelor de execuţie vectorială scalară, unitatea scalară poate fi 
folosită pentru probleme cu vectori mai lungi. 

Cînd se calculează toate sumele parţiale, se pot considera trei alter- 
native : executarea metodei secvențiale sau în cascadă în unitatea vecto- 
rială sau metoda secvenţială executată în unitatea scalară. Nu trebuie să 
considerăm și cazul execuţiei adunării în cascadă de tătre unitatea scalară, 
deoarece va fi întotdeauna mai lentă decît metoda secvenţială. Prin ur- 
mare, există trei curbe de performanțe egale ce trebuie calculate pentru 
toate cele trei perechi pasibile de algoritmi. 

Pentru a analiza metodele de adunare secvenţială și în cascadă execu- 
tate în unitatea, vetorială, va, trebui să calculăm numărul total de operaţii 
aritmetice, ca și numărul de operaţii vectoriale g pentru fiecare din ele. 
Pentra suma secvențială : 


sS=n—1 q=>=n—1 n=i1 (5.16 a} 


1 10 102 103 “10 
m2 


Fig. 5.3(b) Comparație între trei algoritmi pentru calculul su- 

melor parţiale. Se compară metodele secvenţială și în cascadă 

executate în unitatea vectorială şi metoda secvenţială exe- 
cutată în unitatea scalară. Ro = 10. 


Pentru suma parţială în anii $ 


logan — 


s = 2 (a — 2) = miog m — (n: — 1) 


q = logan 
. Ā = [nlogm — (n — 1)] [logn = n[1 — (1jlogsn)] (5.1b) 
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Cu aceste expresii, formula, ce definește linia de performanță egală între 
cele două metode poate fi scrisă imediat, plecînd de la ecuaţia (5.5): 


n = [nlogm — 2(n — 1)]/(n — logn — 1) (5.16c) 


Comparaţia între metoda secvenţială executată de unitatea scalară 
şi cele două metode anterioare poate îi realizată plecînd de la expresiile 
(5.163, b). Liniile de performanţă egală obţinute prin substituire în ecuaţia 
(5.7 sint : cu metoda secvenţiaiă 


nya = Ro — | (5.178) 


şi cu metoda, de adunare parţială în cascadă 
ni = (Bo + 1) (n — 1)/logm]—1 (5.179) 


Diagrama .de fază algoritmică se obține prin desenarea celor trei curbe 
(5.16c), (5,17a), (5.17b) în planul (nya n). Rezultatul este prezentat în 
5.3(b). 


“Diagrama, de fază arată că pentru oricare calculator (definit de o va- 
loare fixă a lui nyx o linie verticală în fig. 5.3(b)), nici una din metode nu 
este permanent mai bună. Nu vom putea spune că deoarece foiosim un 
calculator paralei, algoritmul în cascadă proiectat pentru calculul paralel 
este întotdeauna cel mai bun. Alegerea depinde într-un mod complex de 
relaţia dintre dimensiunea problemei n și parametrii n/a Și Ro ai calcula- 
torului, care poate îi exprimată în mod adecvat cu o diagramă de fază algo- 
ritmică. ; 

_ Pentru nia < Ro— 1 (Ro = 10 în fig. 5.3(b)), alegerea algoritmului 
ze face între metoda secvenţială, şi în cascadă executate de unitatea vec- 
torială. În acest caz, pentru orice calculator va exista întotdeauna o di- 
mensiune a problemei peste care metoda secvenţială este mai bună, furni- 
zată de poziţia curbei de performanța egală. De exempiu, dacă cacmatorul 
are n, = 8, metoda secvenţială va îi mai bună la adunarea a mai mult de 
1000 numere. În acest caz, lungimile vectorilor operanzi au devenit atît de 
mari încît parametrul n, al calculatorului este neglijabil (n/n; este mare). 
Sintem în regimul de calcul serial (vezi ecuaţia (1.9c) şi (5.4c)) şi nu este 
surprinzător că algoritmul proiectat pentru calculul secvențial serial este 
cel mai bun. Formulat altfel, se poate spune că problema este atit de mare 
(măsurată prin n) încît paralelismul calculatorului (măsurat prin n,/2) este 
neglijabil, iar calculatorul se comportă în acest caz ca unul serial, chiar dacă 
are paralelism finit. Variantele seriale ale algoritmilor care minimizează pe 
s sînt, în aceste condiţii, cele mai bune. j 

Dacă na > Ro — 1, alegerea se face între metoda în cascadă execu- 
tată de unitatea vectorială și metoda secvenţială executată de unitatea 
scalară. De exemplu, dacă n,/, = 20, probleme cu dimensiunea mai mică 
ca n 10.sau mai mare ca n 2000, nu trebuie executate în unitatea sca- 
lară.. În primul caz, vectorii nu sînt suficient de lungi pentru a justifica, 
overhead-ul de inițializare, iar în ultimul caz, se execută prea multe ope- 
raţii aritmetice suplimentare pentru a face metoda în cascadă mai avanta- 
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Joasă. În regiunea intermediară, 10 <n <2000, este indicată utilizarea 
unităţii vectoriale cu performanța ei asimptotică mai mare. Totuşi, pentru 
Dup 120 (în cazul Ro = 10), overhead-ul de inițializare este prea mare 
pentru a fi compensat de performanţa vectorială mai mare, şi metoda de 
adunare secvențală executată în unitatea scalară este întotdeauna cea mai 
bună. Fig. 5.3 (b) poate fi desenată pentru alte valori ale lui Ra; ca în fig. 
5.3 (a). Granița între zonele de utilizare a unităţii scalare, și vectorială se 
va deplasa spre dreapta la creșterea lui R. Curba de performanţă egală 
între cei doi algoritmi executaţi în unitatea vectorială nu se va modifica 

Dacă problema sumei parţiale s-ar executa pe paracalculator, sau un 
masiv de procesoare finit cu mai multe procesoare decit numărul operan- 
zilor, considerăm că n, = co. În acest caz, timpul de execuţie este pro- 
porţional cu numărul operaţiilor vectoriale, g. În consecinţă, metoda în 
cascadă este întotdeauna cea mai bună, deoarece are numai logn operaţii 
vectoriale, în comparaţie cu (n — 7) pentru metoda secvenţială. Dacă se 
alege nn algoritm pentru un masiv de procesoare, trebuie considerată in- 
fluența operaţiilor de transfer necesare. Numărul acestor operaţii este ace- 
lași pentru ambele metode (n — 1, conform ecuaţiilor (5.124) şi (5.134)). 
Deci, includerea, acestui timp nu influenţează alegerea algoritmului. Func- 
ţie de timpii de execuţie a unei operaţii de tranfer şi a uneia aritmetice, 
pentru un anumit algoritm, timpul consumat pentru transferuri poate îi o 
componentă importantă (sau chiar dominantă) a timpului total de execu- 
ţie. Dacă transferul este de + ori mai rapid decit o operaţie aritmetică, 
adică 


_ timpul pentru execuţia unei operaţii aritmetice paralelă 


B timpul pentru execuția unei operații de transfer 


atunci raportul între timpul consumat pentru transferuri și timpul consu- 


mat pentru operaţii aritmetice este, în cazul metodei de adunare în cas- 
cadă : 


tata = sila — 1)/logm] (5.19 a) 
de unde deducem că transierurile domină operaţiile aritmetice dacă 
n >64 dacă = 10 


(5.19 b) 
n >1024 dacă y = 100 


Deci, operaţiile de transfer le vor domina pe cele aritmetice pentru vectori 
mai lungi ca n, unde 


n; = 1 + ylogm, (5.19 c) 


Deoarece y — 10 este o valoare tipică, această situație caracterizează toate 
problemele, mai puţin cele banale. Gu alte cuvinte, viteza de execuţie a. 
operaţiilor aritmetice nu trebuie crescută, fără o reducere corespunzătoare 
a timpului de execuţie al transferurilor. ; 
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O..modalitate de reducere a timpului de transfer este de a asigura co- 
nexiuni între procesoarele aflate la distanță mare. În cadrul analizei ante- 
rioare am presupus pentru simplitate un masiv uni-dimensional cu cone- 
xiuni între vecinii cei mai apropiaţi. Cele mai multe masive de procesoare 
sint bi- sau multi-dimensionale. De exemplu, ICL DAP este un masiv 
bi-dimensional de 64 x 64 procesoare. Dacă acestea sint interpretate ca un 
vector unic cu 4096 elemente scrise linie cu linie în masiv, atunci o operaţie 
de transfer între liniile vecine rezultă într-o deplasare de 64 poziţii. Cazul 
general al deplasării datelor într-un masiv k-dimensional este discutat în 
§ 5.5.5 şi în lucrările lui Jesshope (19803, b, c). Alte modalităţi de inter- 
conectare, ca amestecul perfect, oferă conexiuni la mare distanţă (vezi 
$ 3.3.4 şi $ 3.3.5). Cititorul este invitat să calculeze efectul unor astfel de 
conexiuni asupra comparaţiiior anterioare. 


5.2.4 Reducerea eielică 


Recurenţa lineară generală de prim ordin (ecuaţia 5.112) poate fi eva- 
luată secvențial plecînd de la definiţia recurenței cu următorul cod 
FORTRAN : 


X(1) = A(1) e X(0) + DU) 
DO 1 J=2, N 45.20) 


E. X{J) = A(J)* X(J — 1) + DU) 
Sint necesare 


2n operații aritmetice cu paralelism 1, (5.21 a) 
și | 


n operaţii de transfer cu paralelism 1 - (5.21 b) 


Diagrama de transfer pentru algoritmul secvențial este prezentată în 
fig. 5.4. Pentru simplitate, nu vom număra separat diferitele tipuri de ope- 
raţii aritmetice, deşi pot avea timpi de execuţie diferiţi. Raportul între 
timpul de execuţie al unei înmulţiri și al unei adunări depăşeşte rareori 2 
şi este deseori aproape de 1. În particular, pentru un calculator pipeline 
atit pipeline-urile pentru adunare cît şi cele pentru înmulţire, cînd sint 
complet utilizate, furnizează un rezultat la fiecare perioadă a orologiului. 
Pentru n > n,/, timpul mediu pentru o adunare sau înmulţire este apro- 
ximativ acelaşi. 

Algoritmul paralel echivalent metodei de adunare în cascadă este 
cunoscut sub denumirea de reducere ciclică şi are o largă aplicabilitate în 
analiza numerică, în particular cînd se încearcă introducerea paralelis- 
mului într-o problemă. Îl vom folosi, de exemplu, din nou pentru rezol- 
varea sistemelor de ecuaţii tridiagonale algebrice într-o manieră paralelă 
(vezi $ 5.4.3). Recurenţa originală (ecuaţia 5.113) leagă termenii vecini din 
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secvență, adică a, cu gj. Ideea de bază pentru reducerea ciclică este 
` combinarea termenilor adiacenţi ai recurenţei împreună, într-o astfel de 
„manieră încât să se obțină o relaţie între oricare alt termen din secvenţă, 
adică să se stabiiească o relaţie între æ; Și z;-2. Se găseşte tot o relaţie 
de recurenţă lineară de prim ordin, deși coeii- 
cienţii sînt diferiți şi relaţia se stabileşte între 
termeni alternativi. În consecință procesul poate 
fi repetat (într-o manieră ciclică) pentru a ob- 
ţine recurenţe ce leagă fiecare al patrulea, ter- 
„men, fiecare al optulea şi aşa mai departe. Cind 
recurența implică fiecare n termeni (de exemplu, 
după logn nivele de reducere), valoarea la fie- 
care punct din secvență este legată numai de 
valori din afara domeniului care sînt cunoscu- 
te sau nule, deci soluţia a fost găsită. Cind me- 
todaeste folosită pe calculatoare seriale,numărul 
ecuaţiilor recurente care sint foiosite este redus 
la jumătate la, fiecare nivel succesiv, de unde și 
termenul „reducere ciclică”. Pe un calculator 
paralel sîntem interesaţi în păstrarea- unui pa- 
l ralelism înalt şi, de fapt, nu vom reduce nu- 
Fig. 5.4 Diagrama de transfer Mărul ecuațiilor care sint folosite la fiecare 
pentru evaluarea secvențială nivel, Prin urmare, numele algoritmului este 
a recurenței generale de prim într-un anumit fel echivoc. 

ae rar o as: Vom deduce acum algebra metodei de reducere 
acoladă se află în același PE. CiCliCĂ. Să scriem din nou relaţia de recurenţă 


Un PE este folosit pentru Originală pentru 2 termeni succesivi : 
evaluarea fiecărui termen al 
recurenței. Xj = aXj-1 + d, (5.228) 


şi 
Xj-1 = pia + da (5.22b) 


Introducind ecuaţia. (5.22b) în ecuaţia (5.222) obţinem : 
Xj = Baja Xj- + Adu + d (5.23) 
= aP + AP „(5.23b) 


unde ecuaţia (5:23 b) este o recurenţă liniară de prim ordin între termeni 
alternativi ai secvenţei cu un nou set de. cretina definiţi cu : 


aD = aai dP = ajd- g4 à; T (5.230) 


Aplicarea repetată a procesului de mai sus poate fi pe scurt prezentată 
prin ecuaţiile reduse pentru nivelul 1. Exponenţii notează numărul nive- 
lului. 


. 1 = 0, Lyoss lo D i x 
XI = ax, a + al, ig , Z E2 (5.24a) 
= l; Dos 
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unde 


ap = afal 2, | (5.24b) 
ap = afat Hae (5.240) 

şi iniţial E : 
a(0) = a d® =d; (5.24d)} 


Dacă indicele oricărui a, d, sâu x, este în afara domeniului definit 
1 < j < n, rezultatul corect se obţine prin adoptarea valorii zero. Cind 
1 = logn toate referinţele la Xj! = Xj-n în ecuaţia (5.242) sînt în afara, 
domeniului definit, de aici soluţia recurenţei este 


E) l (5.24e) 


Prin urmare metoda generează succesiv coeficienții a® şi d definiti cu 
ecuațiile (5.24b, e), pînă ce se află dfs, Aceasta este soluţia pentru relația 
de recurenţă. 

La prima vedere poate părea că ecuaţia (5.24c) nu poate fi evaluată 
în paralel. În definitiv, ecuățiă pentru d) este:aparent aceeaşi cu relația 
de recurenţă secvenţială originală cu x înlocuit de d. Diferența fundamen- 
tală între ecuaţia (5.24c) şi relaţia de recurenţă originală (5.22a) este că 
valoarea lui d% i- și d!-b din membrul drept al ecuaţiei (5.24c) sint 
valori bine cunoscute, calculate la nivelul anterior (1—1). Aceşti d4- sînt 
variabile distincte de dp din membrul stîng. Prin urmare, ultimul (aP ; 
j = 1, ... , n) poate fi evaluat cu o singură operaţie paralelă sau instruc- 
ţiune vectorială. Aceste relaţii sînt clasificate cu diagramele de transfer 
pentru evaluarea lui aP (fig. 5.5) şi d (fig. 5.6). 

În aceste diagrame prezentăm numai valorie pentru af şi dp. Ob- 
servăm că sînt necesare numai aproximativ jumătate din valorile ap. În 
particular nu este necesară nici una cînd 1 = 3. Cantitatea de paralelism 
variază de la aproximativ n la început la aproximativ n/2 pentru nivelul 
final. La calculatoarele pipeline care lucrează cu vectori de lungime varia- 
bilă, trebuie mărită performanţa pentru a reduce lungimea vectorului la 
valoarea, corectă pentru fiecare nivel. La masive de procesoare cu n < N 
sau la paracalculator, pentru care timpul de execuţie nu este afectat de 
lungimea vectorului, paralelismul poate fi menţinut egal cu n la fiecare 
nivel prin încărcarea tuturor a = 0 pentru —n/2 < j < 1şid, = 0 pentru 
—n s<j < 0 sau altfel considerînd nule valorile care sînt în afara dome- 
niului, ` 

Evident, este destul de complicat să evaluăm performanțele unui algo- 
ritm de reducere ciclică, luînd în considerare reducerea paralelismului la 
fiecare nivel. Totuşi, putem obţine o margine inferioară presupunind că 
paralelismul rămîne n la fiecare nivel şi că toți ay se calculează. Parale- 
lismul mediu este |(n —1)+(n —2)4+...+(n—21)4+..,.+n/2]/ 


383 


jogam = n[1 — (1 — n-1)/logsn], de unde pentu ss valori mari ale lui n 
obținem : 


3log operaţii aritmetice cu paralelism n 
şi (5.25) 
2(n — 1) operaţii de transfer cu paralelism n 


Lăsăm ca un exerciţiu pentru cititor să analizeze, în modul prezentat ante- 
rior, metodele de adunare secvențiale şi în cascadă considerind pe deplin 
reducerea paralelismului la fiecare nivel. Recurenţa generală de prim ordin 
de mai sus devine suma în cascadă pentru cazul particular a, = 1 pentru 
2 < j < n, care face ca toate înmulțirile din fig. 5.6 şi întreaga figură 5.5 
zedundante. 


2 (2) 12 Bi ia 
A az [i aá (=2 
E „9 i e 
„iar E 
K-K M Med Ma 


a 1=0 

az C3 ay 45 ag în 99 99 

bez Pta Piu  PEs "Pept Pip 269; 

Fig. 5.5 Diagrama de transter pentru ecuația (5.24 b), calculul 

paralel al coeficienţilor a, in cazul algoritmului de reducere ci- 

clică aplicat recurenţei liniare, generale de prim ordin pentru 
cazul n=8. 


Algoritmul de reducere ciclică poate fi implementat ineo formă vecto- 
rială prin codul FORTRAN : 


X=D 
DO 1 L=1,LOG2N 

= A*SHIFTR (X, 2**(L — 1) (+X (5.262) 
1A = A*SHIETR(A, 2*(L — 1)) (5.26b) 


unde X, D şi A au fost declarate ca vectori. Observăm că, în implementarea 
acestui cod, adresele din memorie centrală a vectorului X şi vectorului 
SHIFTR, necesari amindoi pentru evaluarea expresiei (5.262), sint separate 
prin blocuri de memorie puteri ale lui 2. Aceeași situaţie este şi pentru vec- 
torul A în expresia, (5.26b). Prin urmare este probabil că conflictele de 
acces la memorie (vezi $ 5.1.5) sînt un impediment serios la evaluarea ra- 
pidă a algoritmului de reducere ciclică pentru calculatoarele seriale și 
pipeline cu un număr de blocuri de memorie egal cu o putere a lui 2. Deoa- 
rece Burroughs BSP are un număr prim de blocuri (17), nu este afectat de 
acest inconvenient (vezi p. § 3.3.8). 


384 i ma -- 
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vei pt xl) dă ti ne) ti) ve) 13 


În dn 12 
hp ti 
F 

1=9 


d a dz a3 d o d, 05 ds asde 07 d ag da 
PE PE2 _PE3 PE, PEs PEg PE7 PEg 
` Fig. 5.6 Diagrama de transfer pentru ecuaţia (5.24 c), calculul paralel al 


coeficienţilor ap în algoritmul de reducere ciclică aplicat recurenţei lini- 
are penerale de prim ordin. Valorile a; rezultă în urma calculelor din fig. 
5.5, care au locin paralel cu operaţiile descrise de această figură. 


5.3 Înmulțirea matricelor 


Înmulțirea matricelor este cel mai simplu exemplu de operaţii cu matrici 
şi ilustrează suficient de bine modurile diferite în care trebuie restructurat; 
un algoritm simplu pentru a corespunde arhitecturii calculatorului pe care 
urmează să fie executat. Elementele C,, ale matricei produs ce se calculează 
din elementele A,,; şi B;; ale matricelor ce se înmulțesc cu formula : 


n 
Co = $ ABe 1<ij< n, (5.27) 


k=1 
unde primul indice este numărul liniei, iar al doilea numărul coloanei. 


5.3.1 Metoda produsului interior 


În mod invariabil, matricele se înmulțesc pe calculatoare seriale prin 
execuția a trei bucle DO, folosind codul FORTRAN care traduce direct 


formula anterioară : 


DO 11=1,N (5.28 a) 
DO 1J=1,N 
DO1K=1, N : (5.28 b) 


1 C(L J)=C(1, J) + A (I, K)* B (K, J) 


~e. 702 a | 385 


unde presupunem că toate elementele C(I, J) au fost inţializate cu zero 
inaintea procesului de calcul. Expresia de atribuire din cod (5.28b) for- 
mează produsul interior al liniei i a matricei A cu coloana j a lui B. Acesta 
este un caz particular de evaluare secvenţială a sumei unui set de numere, 
discutată în $5.2 (fie d, = Ay Byin ecuaţia (5.11b), atunci £a = 0,;)- 
În consecință avem fie opţiunea evaluării secvențiale ca în codul (5.28), fie 
cea a utilizării metodei de adunare în caseadă. Consideraţiile făcute în 
$5.2 sînt valabile. Unele calculatoare au o instrucţiune pentru „produs 
interior” (pentru CYBER 205, vezi tabelul 2.4) care trebuie luată în consi- 
derare. i 

Oricum, în evaluarea unui produs matriceal este mai mult paralelism 
inerent decit cel corespunzător evaluării unei singure sume. Înmulțirea 
matricelor implică evaluarea a n? produse interioare, ce pot fi executate 
cite n simultan (metoda produsului intermediar) sau n? în același timp 
(metoda produsului exterior). 


5.3.2 Metoda produsului intermediar: 


Această metodă se obţine prin schimbarea ordinei buclelor DO din 
codul (5.28). Dacă introducem bucla corespunzătoare liniilor I, în poziţia 
cea, mai interioară, obţinem cod care calculează produsul interior al tuturor 
elementelor une: coloane a lui C în paralel : 


DO1J=1,N (5.29 a) 
DO 1K=1,N | | 
DO11=1,N (5.29 b) 


1 C (1, J) = C(I, J) + A (1, K) * B(K, J) 


Fiecare termen al buclei corespunzătoare lui I poate fi evaluat în 
paralel, astfel că bucla (5.29b) poate fi înlocuită cu o expresie vectorială. 
Codul poate fi scris : 


DO 1 J=1, N = (5.302) 
DO1K=1,N 
1 C(,J)=C0(,J)+4A(, K)*B(K, J) (5.30b) 


unde C( ,J) şi A( , K) sint vectorii compuşi din coloanele J și K ale 
matricelor C şi A. Adunarea, +, este o operaţie paralelă cu n elemente, 
iar înmulţirea, X, este o operaţie între un scalar B(K, J) cu un. vector 
A( , K). Prin urmare, paralelismul codului de înmulţire intermediară 
este n, în comparaţie cu i al metodei de înmulţire interioară. Simpla 
schimbare a ordinii buclelor DO a determinat acest rezultat. Observăm 
că puteam deplasa bucla J spre poziţia mediană, ceea ce ar fi determinat 
calcularea, tuturor produselor interioare ale unei linii în paralel. De obicei 
elementele coloanelor unei matrice se memorează în locaţii de memorie 
adiacente (modul FORTRAN), în consecinţă conflictele de acces la me- 
morie sint reduse dacă operaţiile vectoriale au loc între vectori €6loană,. 
De aceea se va prefera codul (5.30). 
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Metoda produsului intermediar, programată în limbaj de asamblare, 
eate cea mai bună pe calculatorul CRAY-1. Se obţine performanța super- 
vectorială de 138 Milop/s. Consecința este că, în medie, se vor executa 
două operaţii aritmetice într-o perioadă de ceas (0 operație executată 
intr-o perioadă de ceas este echivalentă cu 80 Mflop/s). Rezultatul este 
posibil deoarece operațiile de înmulţire și adunare din expresia (5.30 b) 
pot fi înlănțuite sub forma unei singure operaţii compuse executată — în 
pipeline, ce produce un element al vectorului rezultat C( ,J) la fiecare 
tact. 

Este interesant de observat că metoda produsului intermediar are o 
performanță superioară metodei produsului interior, chiar pentru calcula- 
toare ca CDC 7600 care nu au instrucţiuni vectoriale explicite, şi nu sint 
clasificate ca fiind calculatoare paralele. Totuși CDC 7600 are unităţi 
aritmetice pipeline, iar performanţa lor creşte cînd operaţiile aritmetice 
se execută într-o manieră regulară, ca în codul serial (5.29 b) pentru 
operații vectoriale. Această idee a fost exploatată sub forma unor rutine 
scrise în limbaj de asamblare, optimizate cu multă atenţie , ce formează 
pachetul STACKLIB (vezi $ 2.3.5) scris la Laboratorul Lawrence Liver- 
more. Aceste rutine execută diverse operaţii vectoriale diadice sau triadice, 
ca de exemplu expresia „vector + scalar + vector” din codul (5.30 b), 
ceea ce conduce la o creştere a performanţei cu un factor de 2 faţă de 
codul de evaluare serială (5.28 b). 


5.9.9. Metoda produsului exterior 


Această metodă se obţine prin deplasarea buclei corespunzătoare lui 
K din codul (5.28) spre exterior: 


DO1K=1,N (5.31 a) 
DO11 1,N l 
DO1J=1,N 

1 C (I, J) = C(I, J) + A (I, K) * B (K, J) 5.31 b) 


Codul (5.31 b) poate fi înlocuit cu o singură expresie de masiv, în care 
un termen al produsului interior este evaluat în paralel pentru toate cele 
n? elemente ale lui C. Folosind notația introdusă în cap. 4, 4, C simbolizează 
întregul masiv şi vom scrie : 


DO1R=IN 
1C=C+A(, K)*B(K, ) l (5.32) 
unde operația de înmulțire este o operație de înmulţire element cu ele- 
ment a unei matrice n xn obţinută prin duplicarea coloanei K a matricei 
A şi o matrice nxn obţinută prin duplicarea liniei K a matricei B. Ope- 


raţia de adunare este o adunare element cu element a n xn elemente. Iată 
expresia în DAP FORTRAN : 


DO1K=1,N 
1C=C- = IATC (Ad ,K)* MATR(B,(K, )) (5.33) 
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unde funcţia MATC(X) produce o matrice ale cărei coloane sînt vectorul 
X. Similar, MATR (X) produce o matrice ale cărei linii sînt vectorul X. 
Sint necesare două funcţii deoarece altfel transformarea unui vector 
într-o matrice ar fi ambiguă (vezi $ 4.3.1 (iii) și (iv). 

Este clar că metoda produsului exterior este adecvată pentru um 
masiv de procesoare cu aceleaşi dimensiuni ca şi maţricele (de exemplu, 
produsul unor matrice 64x64 pe ICL DAP 64x64). În acest caz parale- 
lismul structurii hardware este identic cu cel al algoritmului. Deoarece 
paralelismul a crescut de la n la n? în comparaţie cu metoda produsului 
intermediar, este probabil de asemenea ca metoda produsului exterior să 
fie superioară pe calculatoare pipeline cu n mari. Pentru matrici 64 x 64, 
lungimea vectorului creşte de la 64, în cazul produselor intermediare, la 
4096 pentru produsele exterioare. Raportul dintre performanța metodei 
produsului exterior, P., și performanța metodei produsului intermediar, 
Pm, constă în raportul dintre timpul necesar execuţiei a n operaţii vec- 
toriale de lungime n şi timpul necesar execuţiei unei operaţii vectoriale de 
lungime m2: 


P, bla tn 14h (634.2) 
Pa n2? +0 1+ Dn? 


PNA 
~ 


f pentru np =n>1 
Dyn pentru n? > Dy > n 


Pentru cazul n = 64 avem 


P 1,12 pentru ny, = 8 
a = 12,5 pentru ny = 100 (5.34 b) 
ii 13 pentru nı; = 1000 


Este clar că se poate alege prea puțin între aceste metode din acest 
punct de vedere în cazul unui calculator ca CRAY-1 ce are nı; mic. Pro- 
dusul intermediar este favorizat de alte considerente, ca abilitatea de a 
lucra cu registre vectoriale şi de a folosi înlănțuirea. Totuşi, produsul exte- 
rior prezintă avantaje evidente pentru calculatoare pipeline în cazul în 
care n? > nj >n. t ă 


"5.3.4 Folesind paralelism n? 


Jesshope şi Craigie (1980) au utilizat o combinaţie interesantă între 
tehnicile discutate în contextul înmulţirii matricelor pe masive de pro- 
cesoare al căror ordin diferă de cel al matricelor (de asemenea în Jesshope 
şi Hockney 1979). De exemplu, cum să se calculeze produsul a două matrice 
16x16 pe un sistem ICL DAP 64x64? Evident, adoptarea metodei pro- 
dusului exterior ar fi inoportună deoarece s-ar folosi numai 1/16 din 
procesoarele disponibile. 
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Jesshope şi Craigie au observat că în cazul înmulţirii matricelor 
nK se execută n? înmulţiri (n? produse interioare, fiecare a n înmulţiri 
[vezi ecuaţia (5.27)] şi că toate aceste produse pot fi evaluate simultan 
cu un paralelism n". Sumarea a n termeni corespunzători tuturor celor 
n? produse interioare se poate executa în logn pași, cu paralelism n’, 
folosind metcda de adunare în cascadă. Codul FORTRAN echivalent este: 


DO 11=1,N 
DO1J=1,N (5.35 a) 
DO1K=1,N 

1 C (1J, K) = A(1, J, K) * B(I, J, K) 


DO 2 L = 1,LOG2N 
K1 = 2** (L—1) 
DO 2 K=1,N-R1 


DO 23=1,N 
DO 21=1,N i 
21 (CU, J, K) = C(I, J, K) + CU, J, K+K1) (5.35 b) 


Mai sus bucla (5.35 a) realizează toate cele n? înmulţiri, iar bucla 
(5.35b) evaluează suma în cascadă. După execuția celor 4 bucle înlănţuite 
(5.35 b) elementul C(I, J) al produsului se va găsi în locaţia C(I, J, 1). 
Codul de mai sus poate fi scris succint, folosind construcţiile paralele intro- 
duse în $ 4.3.1 (vezi p. 400—1) cu expresia : 


C = SUM (XPND (4,3, N) e XPND (B, 1, N),2) (5.350) 


În cazul unor matrice 16x16, și al sistemului ICL DAP 64x64, n = 16 
şi n? = 4096 de unde se vede că paralelismul algoritmului este identic cu 
paralelismul mașinii. Cei trei indici ai matricelor din codul (5.35) sînt 
transformați în cei doi indici ai masivului de procesoare conform unei me- 
tode de asignare: Pentru a reduce operaţiile de transfer în timpul sumării 
în cascadă, trebuie ca valorile cu aceiaşi indici I şi J să se memoreze în 
procesoare vecine. O astfel de asignare este : 


00, J, E) memorat în P(441 4 K/4,4J + MOD (K, 4)),.. (5.36) 


unde indicii procesorului reprezintă numărul liniei, respectiv coloanei, 
din masiv, ce vor fi caleulaţi cu instrucţiuni FORTRAN. Rezultatul acestei 
asignări este că cele 16 valori cu aceiaşi primi doi indici se vor memora 
compact într-un masiv de procesoare 4 4, astfel, transferul fiind menţinut 
la un minim. Operaţiile de transfer la mare distanță, impuse de extinderea 
matricelor A şi B pot fi executate efectiv pe ICL DAP folosind facili- 
tatea broadcast (vezi § 3.4.2). Şi funcţia SUM din expresia 5.35 c) poate 
îi optimizată folosind algoritmi la nivel de bit. 
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5.4 Sisteme tridiagonale 


Sistemele tridiagonale formează o clasă foarte importantă a ecua- 
ţiilor algebrice liniare. Ele intervin repetat ca aproximări cu diferenţe 
finite ale ecuaţiilor diferenţiale cu derivate de ordinul 2: de exemplu, 
mişcarea armonică simplă şi ecuaţiile Helmholtz, Laplace, Poisson şi de 
difuzie. În consecinţă, metode eficiente pentru rezolvarea, acestor ecuaţii 
se află la baza a numeroși algoritmi numerici importanţi pentru rezolvarea 
lor; de exemplu, metode iterative ca ADI și SLOR, metodele rapide 
FACR şi Buneman pentru rezolvarea anumitor clase a acestor ecuaţii. 
Unele din aceste metode se vor prezenta ulterior în $ 5.6. Din păcate, 
multe din tehnici, cum este eliminarea gausiană, foarte eficiente pe calcu- 
latoare seriale sint algoritmi seevenţiali și deci inadecvaţi pentru calcula- 
toare paralele. În continuare vom analiza problema introducerii paralelis- 
mului în aceste metode sau adaptarea unor noi algoritmi, ca reducerea 
ciclică, care în mod inerent sint mai paraleli. În dezvoltarea acestor tehnici 
putem folosi mult din experienţa ciştigată în timpul studiului recurenţelor 
în § 5.2. ` 


Rezolvarea sistemelor de ecuații tridiagonale este tratată pe larg în 
literatură. Stone (1973, 1975) Lambiotte şi Voight (1975), Swarztrauber 


(1979 a, b), Kershaw (1982), Kascic (1984 ¢), Gentzsch (1984) și Schonauer 
(1987) prezintă metode pentru execuția pe calculatoare vectoriale. Pe 
de altă parte, Evans (1980), Kowalik şi Kumar (1935) şi Wang (1985) 
prezintă metode adecvate pentru calculatoare MIMD. 


5.4.1 Eliminarea gausiană 


Sistemul tridiagonal de ecuaţii algebrice liniare poate fi seris ca : 


ip imi mmm eee pal Ai 
N k 2 
a i EA `, 1 f x? kz 
0 Ne EN NE Fă 4 3 i 
e iaz fa liga i i 4 
aei a e akt zi A 5.37 
a a: SU Aa t pi | e 3 
N aaa Sa St | A 4 
i Di T O ~l 4 Li 
i e Ni NA temi i H 
| i SA O i f 
i NAC bad Cm í l 
N Li 
i Le ic iai ro el 0 an ba Ya ka? 
sau vectorial : 
- Ax=k (5.38) 
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Algoritmul de eliminare gausiană poate fi enunțat astfel : 
4) Eliminare înainte 


w = c/b 
W = e. /(b—aw,-), i= 2, 3, .... n—l 
e, = W/G 
şi 
gi = kb, 
g: == (k, A 2,8;_1)/(bi—aw._1), i = 2, 3, e.g n 
gau 
g: = (kı a5 a,8:-7) e, 
sau 


8 = (k, — ag) w/c 
16) Substiiuirea înapoi 


Xn = En; 


X = g —WXny i = (n—1), (n — 2)... {1 


(5.39 a) 


(5.39 b) 


(5.39 c) 
(5.39 d} 


(5.39 e) 


(5.391) 


În cadrul etapei de eliminare înainte se calculează doi vectori auxiliari, 
w şi e, care sint funcţii numai de he pAr atricei A. Aceşti vectori sînt 
coeficienţii din descompunerea triunghiulară a matricei A în produsul 
dintre o matrice triunghiulară inferioară L și o matrice tringhiulară 


superioară U: 


A = LU (5.40) 
unde 


Folosind această descompunere, soluţia ecuaţiei (5 37 ) poate fi exprimată 


în două etape, pentru un k iii 
a Ly = 
Ux = g 


(5.41 a) 
(5.41 b) 
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De aici Ax = LUx = Ly = k. Etapa de eliminare înainte d (5.39 d) este 
reprezentată de ecuaţia (5.41 a), iar etapa substituirii înapoi de ecuaţia 
(5.41 b). În timpul acestui proces este posibil ca g să se serie peste k, igr 
x peste g, deci vectorul intermediar g nu impune prezenţa unui spaţiu de 
memorie suplimentar. 

Dacă vectorii auxiliari nu sînt precaiculaţi, vom evalua ecuaţiile 
(5.39 a) şi (5.39 e) împreună, urmate de ecuaţia (5.39 f). Numitorul (b, — 
—2-1Wı-1) se evaluează o singură dată şi sint necesare 8n operaţii arit- 
metice scalare. Totuși, dacă trebuie rezolvate mai multe ecuații de aceeaşi 
matrice A, dar cu vectori k diferiţi, numărul operaţiilor poate fi redus la 
5n dacă cei doi vectori w şi e sînt precalculaţi şi memoraji. În acest caz 
folosim ecuaţiile (5.393) şi (5.39 b) la calculele preliminare şi ecuaţiile 
(5.39 d) şi (5.39 £) pentru găsirea soluţiilor pentru fiecare k. Dacă este 
precalculat un singur vector, w, se omite ecuația (5.39 d) şi se folosesc 
ecuaţiile (5.39 e) şi (5.39 f). Numărul operaţiilor aritmetice scalare creşte 
la 6n, dar, desigur, spaţiul de memorie este salvat. Dacă sistemul tridiagonal 
rezultă din diferenţa finită a unei derivate de ordinul 2 pentru un caroiaj 
regulat, a, = © = 1. În acest caz e, = w, şi algoritmul se simplifică con- 
siderabil ; 


w = Cub 
We = (bi — W1), i = 2, 3, ... 0—1; (5.42 a) 
l gı = kı/b;, 
i s = (k, — g1) W. i= 2, 3, 0; i (5.42 b) 
Xa = Bn 
X = Qi — WX, I = n—1, n—2,.. „l © (5.42 c) 


Acum numărul operațiilor scalare s-a redus`la 6n fără calcule prealabile 
și 4 n cu calcularea prealabilă a vectorului w. 

Cele trei bucle (5.39 a, c, Ê) sau (5.42) ale algoritmului de eliminare 
gausiană sint toate recurenţe secvențiale ce trebuie evaluate cîte un termen 
la un moment dat. De aici, paralelismul algoritmului este 1. Aceasta, îm- 
preună cu faptul că elementele vectorului sint referite cu incremenţi uni- 
tari şi că numărul operaţiilor aritmetice este minimizat, face acest algo- 
ritm ideal pentru calculatoarele seriale. De asemenea, absenţa oricărui 
paralelism face imposibilă exploatarea caracteristicilor paralele ale unui 
calculator. În concluzie, algoritmul este inadecvat pentru rezolvarea unui 
sistem de ecuaţii tridiagonale pe un calculator paralel. 

Totuşi, dacă cineva are de rezolvat un număr de m sisteme tridiagonale 
independente (să luăm m = 64), situaţie frecventă la rezolvarea PDE 
(vezi $ 5.6), atunci eliminarea gausiană va fi cel mai bun algoritm de uti- 
lizat pe un calculator paralel. În acest caz, toate cele m sisteme se vor 
rezolva în paralel prin schimbarea tuturor variabilelor algoritmului în 
vectori de lungime m. De exemplu, variabila w, ar deveni vectorul (w,. ; 
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k = 1, ...,m), unde w,, este evaluarea lui w, în al k-lea sistem 
tridiagonal. Cînd se face aceasta, toate operaţiile scalare în ecuaţiile (5.39) 
devin operaţii vectoriale cu vectori de lungime m. Toate expresiile sint 
vectorizate şi se atinge performanța vectorială maximă. Astfel obţinem 
atit un număr minim de operaţii aritmetice (prin alegerea procedurii gau- 
siene) cit şi paralelismul maxim. Remarcăm că în mod obişnuit aceste două 
obiective nu pot fi atinse simultan (vezi de ex. § 5.2 pentru recurenţe). 
Dezavantajul principal al acestei metode este că spaţiul de memorie ne- 
cesar crește de m ori în comparaţie cu rezolvarea unui singur sistem tri- 
diagonal la un moment dat. Alegerea între aceste două alternative se pre- 
zintă în continuare în $ 5.4.4. 


5.4.2 Dublarea recursivă 


S-au propus mai multe metode pentru introducerea paralelismului 
în algoritmul gausian secvențial, printre care remarcăm algoritmul de 
dublare recursivă al lui Stone (1973). Vom prezenta o variantă a acestui 
algoritm (Stone 1975). În lucrarea lui Lambiotte şi Voight (1975) sînt 
descrise performanţele unora din aceşti algoritmi executaţi pe calculatorul 
pipeline CDC STAR 100. O altă comparaţie între algoritmi pentru CDC 
7600 şi CDC STAR 100 apare în lucrarea lui Madsen și Rodrique (1976). 


O examinare a algoritmului gausian definit de ecuaţiile (5.39 a, d, 
f) sau (5.42) arată că algoritmul constă în 3 recurenţe. Ambele recurente 
pentru g, şi x, sint liniare și de prim ordin ; deci pot fi evaluate cu reduceri 
ciclice folosind metoda pentru recurenţa liniară generală de prim ordin 
descrisă în $ 5.2.4. Nu sînt necesare discuţii suplimentare. Recurenţa pentru 
Wa deşi tot o recurenţă cu 2 termeni, este neliniară deoarece leagă w, de 
(bi — awi-a)ri. Prin urmare reducerea ciclică nu poate fi aplicată direct 
pentru introducerea paralelismului în această recurenţă. Totuşi, după 
unele transformări, aceasta se poate aplica. 


Pentru w, recurența este : 


w, = a/bi 
s W = e,/(b, — aW), i=2, 3, e3 n—] (5.43 a) 
Dacă introducem | 
Sa W = Y/Y T i (5.43 b) 
gi aruit obținem: 
- aici + byi + GY > 0, i=2, 3, ... n—1 (5.44 a) 
cu ; l l 
yı = 1, yY = —&j/bı (5.44 b) 


Ecuația (5.44 2), fără a surprinde, este forma omogenă a cuațiilor originale. 
Ea este o recurenţă liniară de ordinul 2 (sau cu 3 termeni). De aici problema 
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„găsirii lui w, este aceeaşi cu cea a rezolvării ecuaţiilor originale. În $ 5.4.3 
vom arăta cum se poate folosi direct reducerea ciclică pentru rezolvarea 
unor astfel. de recurente. Algoritmul de dublare recursivă, deşi foloseşte 
reducerea ciclică, diferă întrucitva, cum vom arăta în continuare. 


Pentru a păstra generalitatea, considerăm reourenţa de ordinul 2 ; 
ay. + by. + CYiei = k, (5.45 a) 
Ecuația (5.45 a) poate fi exprimată cum urmează + 


(..) o ( ajo, Y i ( kh ) | (5.45 b) 


sau 


vi = Qvi- + b, ‚i = 2,3,..., 0—1 (5.45 0) 
unde : n 
N) g 0 1 ( 0 ) 
v= Q = h= (5.45 d) 
i (*.) i (n —a,/b, k,/e, 
cu 


it lami 


Ecuația (5.45 c) este o recurenţă liniară de prim ordin pentru vectorul v, a 
ecuației generale (5.11 a) exceptind că factorul multiplicant este acum o 
matrice. Recurența poate fi rezolvată folosind prosadura ds reducere ciclică 
descrisă pentru recurența scalară în $ 5.2.4, cu o interpretare adecvată 
“sn termeni de vectori şi matrice. Aflind v, (luînd h, = 0), valorile pentru 
yı se cunosc, iar w, se calculează cu ecuaţia (5.43 b). Astfel se încheie algo- 
ritmul cu dublare recursivă pentru evaluarea paralelă a descompunerii 
LU a unui sistem tridiagonal cu recurenţele de eliminare gausiană,. 


Se poate încerca rezolvarea ecuațiilor originale cu această matodă, 
deoarece ele sint aceleași cu ecuaţia (5.45 a). Dar această abordare este 
imposibilă deoarece lipsește valoarea inițială vı. Aceasta se întimplă deoa- 


rece un astfel de sistem tridiagonal rezultă din PDE de ordinul 2 ca con- 
diții la cele 2 margini (se pot considera yọ și Yaa cunoscute). Totuşi, 
recurența poate fi evaluată progresiv dacă se dau condițiile iniţiale pentru 
două valori adiacente, fie y, şi yı, ce definesc o valoare de start pentru 
vı. Dacă sînt disponibile astfel de valori inițiale, metoda prezentată poate 
fi folosită pentru rezolvarea paralelă a recurenţei liniare generale de or- 
dinul 2. Această situație intervine dacă ecuaţiile rezultă dintr-o problemă 
cu valori iniţiale de ordinul 2, mai degrabă decit din problema prezentată, 
cu valori la margini (boundary-value). 
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Pentru a estima numărul operaţiilor vom face supoziţia că paralelis- 
mul își păstrează permanent valoarea n. Atunci, neglijind constantele, 
avem : 

18 logn 'operaţii pentru obţinerea lui v, 

3 logn operaţii pentru calcularea lui g, 

.3 logm operaţii pentru obţinerea lui x, 
total 241log,n operaţii cu paralelism n | (5.462) 
Timpul de execuţie al iiti pe un calculator definit de n, este 
proporțional cu 


tro 2 24 (n + n) logm è —. (5.46b) 
5.4.3 Reducerea ciclică 


__ Hockney (1965) împreună eu Golub au folosit primii reducerea ciclică 
pentru rezolvarea ecuațiilor tridiagonale. Metoda a fost implementată pe 
un calculator serial, IBM 7090, și a fost preferată eliminării gausiene, 
deoarece reducerea ciclică consideră în mod periodic condiţiile la margine, 
într-un mod mult mai ordonat, eliminînd necesitatea calculării vectorilor 
auxiliari. S-au rezolvat ecuații ce rezultă din aproximarea cu diferențe 
finite a ecuaţiei Poisson, cu aceiaşi coeficienţi în fiecare nod al caroiajului. 
Aceste ecuaţii sînt prezentate în detaliu în $ 5.6, Pentru comoditate s-a 
luat un număr de noduri de caroiaj şi deci de ecuaţii, o putere a lui 2. 
Nici una din aceste restricţii nu este necesară în cadrul metodei, au arătat 
Swarztrauber (1974) şi Sweet (1974, 1977). Presupunem aici, pentru gim- 
plitate, că n =n' —1, unde n' = 2q şi q este un întreg, și rezolvăm 
problema, coelicienților generali definită de ecuaţia ks pi 


Seriind 3 ecuaţii adiacente avem pentru i = 2, 4, n'—2: 
By Xi-a + Di-aXs-a + G-131 = Ba 
BX s-a F Dă + Căi l =k, 
af F bil F GXi = Ki (5.47) 

Ecuatiile speciale de încheiere sint corect introduse dacă se ia x) = Xp = 0. 
Dacă prima din aceste ecuații este înmulțită cu a, = —a,/b,_,, iar ultima 
Cu yı = = 0/bin, Și se adună cele trei ecuaţii, variabilele x,_, și X; Be 
elimină. SEebţine : 

ax,- + bb, F CMX = EP | (5.48 a) 
unde 

am = “Mâna 

eP = yC 

L =b + WC-a F Yia 

kP =k + a s-a + YKn (5.48 b) 
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Ecuațiile (5. 48) leagă fiecare a doua variabilă şi, dacă se scriu pentru 
i = 2, 4,....,n'—2, “formează un sistem tridiagonal de ecuaţii de aceeași 
formă cu ecuaţiile originale (5.47), dar cu coeficienți diferiţi (a®, b®, c®). 
În mare numărul de ecuaţii s-a redus la jumătate. Evident procesul poate 
continua recursiv, pînă ce, după log„(n')—1 etape de reducere, rămine 
numai ecuaţia centrală pentru i = n'/2. Această ecuaţie este : 


axo + barfe + Cata = ka (5.49 a) 


unde exponentul r = log„(n') — 1 indică nivelul de reducere. Deoarece 
Xə = Xa = 0, soluţia pentru ecuaţia centrală se obține prin împărţire 


Xn = hal Dia (5.49 b) 


Celelalte necunoscute se pot determina cu o procedură de substituire. 
Deoarece se cunosc Xp, Xa/a Și Xy, Decunoscutele echidistante dintre ele 
pot fi aflate din ecuaţiile etapei r—1 cu 


x; = (k-08 == alf-D Xi ny DS CE-Dzi gaja) /bE -8 x 


pentru i = n'/4 şi 3n'/4. Această procedură se repetă pînă ce, în sina, se 
află toate necunoscutele pare. 

Procedura de reducere ciclică incubă calcularea recursivă a noilor 
coeficienți precum şi a termenilor din membrul drept, pentru etapele 
1=1,2,...,9q—1, din 


-1 
aP = aati- 
cP = yei ml- 
bP = b- + aet h- + ya Cai- (5.50) 


kP = k} + akta + yka 1-2) 


unde 
a = — a-b [b Ea 
y= — cb bizar 
şi | | 
i = 2! pas 2! pînă la n'—2! "a 


cu valorile iniţiale a% = a,, k® = b, şi c% = c, urmate de substituirea 
recursivă a soluției pentru 1 = q, q—1, ..., 2,1, de la 


z, = (kP — af- xaa — efx) bG (5.51) 
unde i 
i = 2%-D pas 2! pină la n'—20-b 
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ŞI Xo = Xv = 0 cind intervin în ecuaţie. Diagrama de. transfer pentru 
acest algoritm este prezentată în fig. 5.7 pentru cazul n' = 8. S-a definit 
vectorul p, = (a, bi, Cy, k,) pentru a indica valorile calculate cu ecuaţiile 
(5.50) 
Numărul de operaţii necesare pentru evaluarea ecuaţiilor (5.50) este 


x 


c 


Aia PERI ie Ele E MR Sta: AP. a 


` Fig. 5.7 Diagrama de transfer 
pentru algoritmul de reducere ci- 
clică serială (SERICR), pentru 
n'=8.  Dreptunghiurile indică 
evaluarea ecuaţiei (5.50), iar rom- 
burile evaluarea ecuaţiei (5.51). 
Variabilele calculate sint scrise în 
căsuțe cu notația p= (ap, bu, 
c k). 


Pro R Pe, aa PI | 

12 cu paralelism n'2-! —1 pentru l= 1, 2,..., loga(n')—1 5.52) 

Timpul de execuție pentru un calculator definit de n, este proporțional cu 
loga(a')—1 


ts.5o = 12 > (D12 + n'9- — 1) 
=l 


N 


= 12[n' + nploga(n”) —nuyp2 — logs(n')—1] (5.53 a) 


“Pentru comparații vom păstra numai termenii de ordinul'n” gi logan‘ 
deci pentru n, şi logn'>1 aproximativ : 


ts:s0 = 12(n' + Du/a logn’) (5.53 b) 
Evaluarea ecuației (5.51) necesită ’ 
`5 operații cu paralelism n2-! pentru | = logn’, ..., 2,1 
Deci f - 


3 logan” | 
i tom = 5 $ (My + n.27) (5.54 a) 
1=0 
= 5[n' + Dap logn’) — 1] (5.54 b) 
= 5(n' + D logan’) (5.54 c) 


Maniera de realizare a reducerii ciclice tocmai prezentată se caracte- 
rizează prin numărul cel mai mic de operaţii aritmetice scalare, deci este 
«cea mai bună soluţie pentru un calculator serial. De aceea vom numi acest 
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algoritm ca variantă serială a reducerii ciclice, și folosim acronimul SERIOR,. 
Timpul total de execuție este proporțional cu : 


tsericr = ts.so + tssa = 17(n' n n,/2 log2(n”)) (5.55) 


Este de dorit ca în cazul masivelor de procesoare să se menţină para- 
lelismul la valori cît mai mari. O metodă alternativă de reducere ciclică 
menţine paralelismul la valoarea n în tot timpul cît durează faza de re- 
ducere. La ultimul nivel de reducere se găseşte soluţia pentru toate va- 
riabilele în paralel — în locul unei valori centrale cum e cazul pentru 
BERICR — iar faza de substituire nu mai este necesară. Deoarece această 
metodă, este foarte convenabilă în cazul paracalculatorului, este denumită 
varianta paralelă de reducere ciclică, și se foloseşte acronimul PARACR. 

Diagrama de transfer pentru acest caz este prezentată în fig. 5.8. 
La fiecare nivel de reducere se aplică ecuaţiile (5.50) în paralel tuturor celor 
n ecuaţii. Poate interveni o dificultate cînd datele cerute nu se află în 
domeniul 1 <is<n. Totuși, se obţin rezultate corecte cînd 


D — o — kD — : 

e >) e = N pentru i <0şii>n+1 . (5.56) 
bw =] 
sau | 
; p° = (0, 1, 0,0) 
Cind se introduc în ecuațiile (5.48a) valorile de mai sus, se obține 
ecuaţia è 

x =0 Ca i<Oşii>n+1 (5.56b) 
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Fig. 5.8 Diagrama de transfer pentru algoritmul de reducere ciclică ` 


paralelă (PARACR) pentru n'=8. “Veetorul particular Po = 
= (0,1, 0,0) 
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care furnizează valorile de margine corecte. Prin urmare putem considera 
fie rezolvarea sistemului iniţial de ecuaţii, care este finit, sau, alternativ 
un sistem infinit extins cu coeficienţii (5.563). Se adaugă în plus ecuaţii 
ca, cele notate cu (5.56b) care sint în afara domeniului problemei iniţiale. 
Fiecare punct de. vedere este corect, dar ultimul este mai apropiat de 
varianta paralelă a reducerii ciclice deoarece defineşte valorile cerute 
pentru p; și x, în afara problemei definite la început. 

După calcularea lui p(” (sint necesare numai valorile lui b, şi k,), se 
obține din ecuaţia (5.51) x, : : 


x, = k/h% (5.57) 


Termenii in x din membrul drept al ecuației (5.51) nu intervin, deoarece, 
la acest nivel de reducere, ei se referă la valori în afara domeniului 1 <i <n 
şi conform ecuaţiei (5.56b) sint 0. 
Numărul operaţiilor necesare pentru algoritmul PARACR este evi- 
dent 
12[log,(n’)—1] cu paralelism n . (5.58a) 
iar timpul de execuție este proporțional cu 
tparacr = 12(Njp2 + n) |log2 (n')—1] 
= (12m; + n) logan’ (5.58b) 


Un avantaj al algoritmului de reducere ciclică este că, în anumite 
condiţii, procesul de reducere poate fi oprit înainte de sfirsit fără a se 
pierde din precizie. Acest lucru este posibil dacă sistemul tridiagonal este 
suficient de mult diagonalizat. Să definim această proprietate în cazul 
sistemului iniţial (5.47) ca minimul în cazul tuturor ecuaţiilor a raportu- 
rilor |b,]/|a,|] şi |b,l/|c.], și o notăm cu 3. Putem apoi lua în considerare 
rezolvarea sistemului mai simplu de ecuaţii cu coeficienți constanţi : 


aX; -1 + bx, + AX = kı (5.59) 


cu |b/a| = 3, care este cel mult egal în diagonalizare cu originalul. Dacă 
acest sistem de ecuaţii mai simplu poate îi rezolvat cu o anumită aproxi- 
maţie, atunci ecuaţiile originale pot fi rezolvate cu mai multă precizie. 
Recurenţa de reducere ciclică (5.50) este în acest caz 


a(0) = a 
şi apoi | 
t = — (all DP/pu-n . 
3 i e 1=12,-. =, logan”) —1  (5:903) 
pU =pl-1 —2(a0l-D)2 ţi-a ~ (5.60b) 
unde indicele i este eliminat deoarece coeficienţii sînt aceiaşi pentru toate 
ecuaţiile şi folosim faptul că ci = aM, Împărţind ecuaţia (5.60b) la ecuația 
(5.60 a) se obţine relaţia de recurenţă în cazul diagonalizării dominante : 
sO = 3 
30 = |b0|/|at] 


= [(86-p—2|, 1= 1, 2, ..., loga(n)—1 (5.61a) 
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De aici, dacă iniţial 3'> 2 ea va creşte de cite 4 ori i cel puţin la fel de rapid 
cu ecuaţia (5.61a) şi 


30 zu a” pentru 3 > >2 (5.61b) 


Aproximâărea cu diferenţe finite a ecuaţiei Helmholtz, 


i | . 
auae BO = s(x) (5.62a} 
dx? ; 
pentru o distanță în caroiaj de h este 
P,-ı—(2 + Bh?) 0, + Du = 8h? (5.62b) 
Deci l 
è = 2 + ph? (5.62c) 


şi pentru 8 > 0 ecuaţiile diferenţiale verifică condiția de creștere a diago- 
nalizării odată cu avansarea procesului de reducere. Ecuațiile armonice 
care se obţin prin rezolvarea ecuaţiilor cu derivate parţiale sînt un set 
important. de ecuaţii ce cad în această categorie (vezi $ 5.6.2). 

Dacă în orice etapă a reducerii inversa măsurii diagonalizarii este sub 
precizia dorită (sau a calculatorului folosit), și se ştie că soluţia x este de 
ordinul unităţii, procesul de reducere poate fi oprit. Soluţia ecuaţiei 
(5.51) este ` | , 
= di di + (x, _ 2071) + X, ,0-1/80-? (5.63a)} 


și, prin postulat termenii în x din membrul diept pot fi neglijați în raport 
cu membrul stîng. Soluţia poate fi găsită la acest nivel prin simpla împăy- 
ţire : 

x = kg- pa-D (5.63b) 
şi în PARACR se cunoaşte soluţia, sau în SERICR poate începe substi- 
tuirea. ; 
Pentru valori mari ale lui 3 (să zicem > 3), nivelul Î la care se poate 
opri procesul de reducere se obține folosind ecuaţia: (5.61b) : 


BÔ mu pi el | (5.642) 


4 


unde c este eroarea relativă admisă pentru soluţie, sau 
Î = log,[(loge-1)/(logz3)] 
= log;(log, £71) — log, (log,8) (5.64b) 
Primul termen arată că o condiţie. de precizie mai mare (e-! mai mare) 
impune execuţia mai multor nivele de reducere, iar al doilea termen: că 


numărul nivelelor e redus odată cu creșterea măsurii de diagonalizare. 
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Dacă 3 are valori apropiate de 2, trebuie evaluată recurenta (5.613). 
În orice caz, soluţia practică este de a măsura diagonalizarea dU la fiecare 
nivel de reducere pe baza valorilor av, bi, c” şi de a opri procesul de 
reducere cînd este satisfăcută ecuaţia (5.642). 

Desigur, nu se cîştigă nimic atît timp cît nu este îndeplinită condiţia, 
i< log, (n’)—1, numărul maxim de nivele pentru reducerea completă. 
Se ajunge la rezultatul că o reducere trunchiată poate produce economii 
dacă : A l 

n>n i (5.65a) 
unde ` 
ñ = 2: = (log e7t)/(log,8) pentru n' > >1 — (5.65b) 


Dacă considerăm exemplul è = 2-2 ~ 10-6 (32 biți în simplă precizie pe 
IBM 360) şi 3 = 4 (că în cazul ecuațiilor armonice din § 5.62), obținem 


Î = 3,32, ñ= 10 (5.650) 


Este clar că reducerea trunchiată poate produce economii avantajoase 
chiar pentru un număr mic de ecuații, cu condiția să fie suficient de dia- 
gonalizate. Este probabil avantajos de introdus un test pentru condiția 
(5.64a) în fiecare subrutină de reducere ciclică. Economiile de timp de 
execuţie pot fi substanţiale dacă sint implicate sute sau mii de ecuaţii. 


5.4.4 Alegerea algoritmului 


În continuare vom discuta modul cum se alege cel mai bun algoritm 
pentru rezolvarea, a m sisteme tridiagonale, a cîte n ecuaţii cu n necunoscute 
fiecare. Alternativele disponibile, ca şi concluziile, sînt tipice pentru modul 
de alegere a celui mai bun algoritm pentru rezolvarea oricărei probleme 
pe un calculator paralel. Vom compara din nou performanţele algoritmilor 
pentru un calculator cu un ny finit. Vom presupune, ca de obicei, exis- 
tența unei memorii infinite fără conflict de acces. Pentru un calculator 
serial se consideră un singur obiectiv, minimizarea numărului de operaţii 
aritmetice. Pentru un calculator paralel există mai multe obiective, deci 
alegerea, metodei celei mai bune devine mai complexă. În cazul problemei 
anterioare a m sisteme tridiagonale, se poate alege cel mai bun algoritm 
secvențial şi aplica celor m sisteme în paralel sau să se ia cel mai bun algo- 
ritm paralel pentru rezolvarea unui singur sistem care să se aplice sec- 
venţial sau în paralel celor m sisteme. În ultimul caz apare complicaţia, 
că cel mai bun algoritm depinde de caracteristicile de paralelism ale hard- 
ului (valoarea lui n,/2). Prima opţiune nu este disponibilă pentru un caleu- 
lator serial şi toate calculatoarele au aceeaşi valoare pentru n1/2 (= 0). 


Începem prin a lua în considerare cel mai bun algoritm pentru rezol- 
varea unui singur sistem tridiagonal de n ecuaţii. Folosind ecuaţiile (5.46b), 
(5.58b) şi (5.55) şi ignorînd diferența neimportantă dintre n’ şi n se deter- 
mină numărul de operaţii și lungimea vectorului mediu îi al algoritmului 
în discuţie ca: 
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(1) pentru dublare recursivă (RD), numerele de operaţii sînt; 


s = 24nlogan .q sa 24 log,n 
De aici, folosind | 
Taps+n,/2q Pro = T- i = s/q 
obținem 
Proos [(24(n + nia) login]! Tiro =n (5.66a) 


(2) pentru reducere ciclică cu lungimea vectorului menținută la n şi 
nici o substituire (denumită, PARACR), 


s = 12n logon  q=—12log,n 
de unde 
Pparacr œc [12(n + ny2) log n]! Dparacr = N (5.66b) 


(3) pentru reducere ciclică cu lungimea vectorului înjumătăţindu-se 
la fiecare nivel de reducere și cu o fază de substituire (denumit SERIER), 


„s=11n q = 17logn 
de aici f ' 
PseRicRă [17(0 + ny log2n)]”! Tiseica = n/loga ` (5.66c) 


Mai sus am ignorat posibilele economii prin reducere trunchiată care ar 
trebui cu siguranță luate în considerare dacă sistemele sînt puternic dia- 
gonalizate. 

Algoritmul de dublare recursivă are o performanță mai slabă decit 
orice variantă a reducerii ciclice, de aceea nu-l vom mai discuta. Desigur, 
ar putea fi folosit pentru găsirea descompunerii LU a ecuaţiilor. Redu- 
cerea, ciclică este întotdeauna mai bună pentru problema enunțată a rezol- 
vării ecuaţiilor. Deci, trebuie să se aleagă între variantele paralelă şi 
serială ale reducerii ciclice (PARACR, respectiv SERICR). 

Cunoscând numerele de operaţii s şi q, diagrama de fază algoritmică 
poate fi trasată folosind ecuaţia (5.5). Varianta paralelă are o performanță 
mai bună sau egală cind Pparacr > Psercr Care conduce la relaţia : 


Nan > 2,4 (1—1,42/log2n) (5.67a) 
Egalitatea produce linia de performanță egală. Ea apare în fig. 5.9 împre- 


ună cu domeniile unde fiecare algoritm este superior. Pentru n, mari 
avem : 


Rn > 2,4 (5.67b) 


402 


Rezultă că pentru 

“ paracaleulator (n, = co), 
varianta paralelă PARACR 
este cel mai bun algoritm 
pentru orice ordin n al ecu- 
aţiilor (de unde şi numele 
variantei). 

Pentru valori finite ale 
lui n; există întotdeauna 
n SERICR un n(:2 0,42n,p) astfel 

| | încît pentru valori mai 

mari decît n varianta, seri- 
ală este superioară. Acest 
rezultat este analog celui 
găsit în $5.2.3 la rezolvarea 
__recurenţelor. Valoarea lui 
n» este o măsură a para- 
lelismului hardware. Dacă 

„ lungimea . vectorului este 
wi 1 % 10° mult; maimare decit aceas- 
nyh ta, pentru o problemă anu- 

Fig. 5.9 Alegerea celui mai Dun algoritm pentru rezol- E anpi puu asa 
varca unui singur sistem tridiagonal de n ecuații pe un problemă calculatorul se 
calculator caracterizat de un n/p: SERICR, reducerea Vă comporta ca un caleu- 
ciclică fără reducerea lungimii vectorului (Conform Hock- lator serial, adică paralelis- 

È ney (1982)). mul calculatorului este 

| prea mic pentru a influenţa 
performanţa. În această circumstanţă va fi relevantă performanţa pe un 
calculator serial : cel mai bun algoritm este cel cu numărul cel mai mie 
de operaţii aritmetice, prin urmare varianta, serială a reducerii ciclice 
(SERICR). 

Dacă alternativ, avem de rezolvat m sisteme tridiagonale a n ecuații 
fiecare, avem de ales între aplicarea fie a lui SERICR, fie a lui PARACR 
în paralel, respectiv serial, celor m sisteme, sau de a folosi cea mai bună, 
metodă serială (recurenţa de eliminare gausiană descrisă în ultimul para-: 
graf din $ 5.4.1) tuturor sistemelor în parale]. Pentru calculatoare cu un 
paralelism natural mare > m.n, cum sînt masivele de procesoare mari 
(ICL DAP), sau calculatoarele pipeline cu ny, mare (CYBER 205), este 
probabil că cel mai bun algoritm este cel mai paralel. În aceste situații se 
compară eliminarea gausiană aplicată în paralel tuturor sistemelor 
(MULTGE) cu paralelism m, eu SERICRp, şi PARACRy.., unde se aplică 
algoritmul de reducere ciclică în paralel tuturor sistemelor. Pentru 
aceste alternative, performanța și paralismul mediu sînt: 


(1) Pentru MULTGE s = 8nm, q = 8n, de aici a 
Puunreg œ [8 n(m -+ nu)! Nuurzer = mM (5.68 a) 
(2) Pentru PARACR,: s = 12 mnlogen, q = 12log;n, deci 


10 


IPPARACR par cc[12(8-n-+ D42) log n)! PARAR par = ON (5.68b) 
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(3) Pentru SERICR,: s = 17 mn, q = 17 logan, de aici, 
PsERICRga, E [17 (m-n-4-nj2) log=n)]”! TSBRICR pa, =IN-D/logen (5.68 e) 


Egalind expresiile de mai sus în perechi obţinem ecuaţiile ce definesc 
liniile de egale performanţă în planul (n,„/m,n). În plus, inegalităţile 


de mai jos definesc regiunile planului unde fiecare algoritm este mai 
avantajos : 


PpARACR > Pururaa cînd 


par 
npa/jm >(1,5 logan —1)/[1— (1,5 logzn/n)] (5.69 a) 
> 1,5 logn cînd n > A | 
PSERICR par > Puurree Cind 
n/m > 1,1/[1— (2,1 logzn/n)] (5.69 b) 
> 1,1 cînd n — oo l 
PPARACRpar > PSERICRpar Nd 
D/M >2,4 [1—(1,42/logm)] > 2,4 cînd n— co (5.69 c) 


Liniile definite de ecuațiile (5.69) sînt prezentate în fig. 5.10, unde împart 
planul (n,/„/m), n) în regiuni în care fiecare din cele trei metode are perfor- 


10| MULTGE | 
PARACR par 


a - 
% 1 10 ngm 10 % 


Fig. 5.10 Selecţia celui mai bun algoritm pentru rezolva- 

rea celor m sisteme tridiagonale a n ecuații pentru cal- 

culatoare cu un paralelism natural mare > mn. Gom- 

parăm eliminarea gausiană (MULTGE), şi versiunile 

seriale (SERICRpar) și paralelă (PARACR,A,) ale redu- 

cerii ciclice cind se aplică în paralel tuturor celor m 
sisteme (Conform Hockney (1982)). 
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manţa cea mai bună. Se observă pe diagramă că există un punct de 
coordonate n 7, n/m 7,7, un „punct triplu” unde cei trei algoritmi 
au aceeaşi performanţă. Găsim că pentru nı; = co (paracalculatorul), 
PARACR, este, aşa cum ne aşteptam, cel mai bun algoritm pentru 
toţi n. Oricum, pentru un n, finit și n,;2> 10 m există întotdeauna un n, 
de la care SERICR. este mai avantajos. Dacă numărul m al sistemelor 
este mai mare decit n, se găseşte că este întotdeauna cel mai bine să se 
aplice algoritmul serial în paralel celor n sisteme. În regiunea 1 < n,/m < 
< 10 toţi cei trei algoritmi pot fi mai avantajoşi conform diagramei pre- 
zentate. 

Pentru calculatoare cu un paralelism limitat la aproximativ n sau 
m, există insuficient paralelism pentru aplicarea algoritmilor SERICR 
sau PARACR în paralel. Această situație caracterizează calculatoare ca 
de exemplu CRAY X-MP (care are un paralelism natural egal cu 64) cînd 
sînt folosite pentru rezolvarea a 64 sisteme tridiagonale cu lungimea 64. 
În acest caz trebuie să comparăm SERICRs (cînd algoritmul respectiv 
de reducere ciclică se aplică secvențial celor m sisteme) și PARACR,, 
cu cea mai bună metodă serială aplicată în paralel (MULTGE). În aceste 
cazuri performanţa și lungimea vectorilor medii sînt : 


Pe ARAGRseg X [12 m(n4-n./2) log=n]-! ÎI PAR AGRsea =n (5.70 a) 


. PezarCesea oc [17 m(n-+-n,plogzn)] TSBRIGRsea —D/logzn (5.70 b) 
100 


MULTGE 


4 % 100 1000 . d 
Fig. 5.11 Selecția celui mai bun algoritm pentru rezolvarea a 
m sisteme tridiagonale a n ecuații pentru un calculator cu pa- 
ralelismul limitat la aproximativ m sau n (aici n/a = 100). 
Comparăm eliminarea gausiană aplicată în paralele tuturor 
celor m sisteme (MULTGE) cu versiunile serială (SERICR seq) 
şi paralel (PARACRsaq) ale reducerii ciclice aplicate secven- 
i țial celor m sisteme. 


Fig. 5.11 ilustrează comparaţia celor doi algoritmi cu MULTGE 
pentru cazul n; = 100. Linia verticală ce separă PARACR,,, și 
SERICR.., se obţine din egalitatea corespunzătoare ecuaţiei (5.67 a) sau 
din fig. 5.9 şi este valabilă pentru toţi m. Eliminarea gausiană multiplă 
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va prezenta o performanță mai bună sau egală cu cea a variantei paralele 
a reducerii ciclice aplicată secveţial cînd 


Puvrree > P'pARACRseg 
sau cind 


m> nyl(4,ð logz(n) — 1) + (1,5 n logzn)/n]-! 
> 0,67 n/logm cînd nız > œ (5.70 c) 
În mod similar MULTGE este superior lui SERICR seq cînd 


Puvrroe > PeERICRscg 
sau cînd Ş 
> Napa[1,125 + 2,125 (nu logzn)/n]! - (5.70 4) 


Se obţine, în sens larg, că aplicarea multiplă a algoritmului gausian sec- 
venţial este cea mai bună cînd numărul sistemelor depăşeşte 1/10 din nu- 
mărul ecuaţiilor fiecărui sistem. Această situație se întilnește în cele mai 
“ multe aplicaţii ce rezultă la rezolvarea ecuațiilor cu derivate parţiale (vezi 
$ 5.6). O mică zonă de pe diagramă favorizează varianta paralelă, a redu- 
cerii ciclice, care se şi micşorează odată cu scăderea lui n. Într-adevăr 
pentru na < 10, PARACRse nu este niciodată cel mai bun algoritm. 


5.5 Transformate 


Transformatele matematice joacă un rol important în analiza matema- 
tică şi numerică. Printre acestea, cele mai importante, sint transformata 
Fourier finită (vezi Bracewell 1965) şi transformatele teoretice numerice 
înrudite, deoarece pentru evaluarea lor există algoritmi rapizi. Algoritmul 
transformatei Fourier rapide (FFT) (vezi $ 5.5.1) obţine toate componentele 
transformării a n valori în 0 (nlogzn) operații aritmetice scalare, în com- 
paraţie cu O(n?) operaţii pentru alte transformate. Transformata teoretică, 
numerică (NTT) (vezi $ 5.5.6) are nu numai un număr logaritmic de ope- 
raţii, dar și avantajul folosirii adunărilor întregi şi deplasărilor; nu se 
folosesc operaţii de înmulţire. De aceea; NTT este foarte avantajoasă pentru 
“arhitecturile orientate pe bit, ca de exemplu, ICL DAP sau Goodyear 
STARAN (vezi capitolul 3). 

Iată unele aplicații ale transformatei Fourier : 

(a) Transformata, Fourier ca o funcţie de timp (analiza seriilor de tit 
pentru a determina spectrul frecvenţelor. De obicei, transformata Fourier 
este cea mai bună soluție pentru calcularea autocorelajţiei şi intercorelaţiei 
unor serii de timp, în timp ce filtrarea datelor se realizează cel mai bine în 
domeniul frecvenţelor (de exemplu reducerea sau eliminarea zgomotelor 
de frecvenţă înaltă). Pentru o tratare completă recomandăm Bleackman 
şi Tukey (1959). 
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b) Transformata Fourier ca o funcție de spaţiu pentru a obţine spectrul 
numerelor de'undă. În multe situații o analiză a spectrului undelor conduce 
la cea mai bună înțelegere a unui fenomen (aflarea unor lungimi de undă 
instabile, de exemplu). Orice sistem liniar (sau perturbații de mică amploare 
ale unui sistem neliniar) poate fi complet descris cu ajutorul ecuației de 
dispersie, cu alte cuvinte frecvenţa de oscilație ca o funcţie de lungimea 
de undă a perturbaţiei. Evaluarea acestei relaţii impune o analiză Fourier 
atît în domeniul timpului cit și al ann pentru un mare număr de lun- 
gimi de undă şi frecvenţe. 

c) Corelaţiile spaţiale între particulele, să spunem, ale unui lichid 
sînt descrise cu perechea, funcţiilor de corelaţie. Cu alte cuvinte, probabili- 
tatea ca două particule să se afle la o anumită distanţă ca o funcţie de acea, 
distanţă. Razele x şi difracția neutronilor permit determinarea factorului 
de structură, care este transformata Fourier a corelaţiei spaţiale. Pentru 
a interpreta, experimentele sint necesare multe transformări ale lungimii 
de undă în spațiul coordonatelor. 

(d) Simularea particulelor prin metode de dinamică moleculară, (vezi 
Hockney şi Eeastwood 1988, capitolul 12), produce orbitele unui mare 
număr de atomi dintr-un lichid. Interpretarea proprietăţilor dinamice ale 
unui lichid şi comparaţia cu teoria se realizează cel mai bine folosind fac- 
torul de structură dinamică. Acesta se determină prin analiza Fourier a 
coordonatelor particulei în spaţiu și timp. 

e) Rezolvarea ecuațiilor liniare cu derivate parţiale intervine frecvent 
în spaţiul lungimilor de undă (așa numitele metode, Galerckin sau spectrale, 
vezi Orszag 1971). Termenii neliniari sînt incluşi prin transformare în 
spaţiul coordonatelor, oglindind interacţia, neliniară, iar apoi transformați 
înapoi în spaţiul lungimilor de undă. Evident, astfel de metode pot fi folo- 
site dacă există și se pot folosi metode rapide de evaluare a transformatelor. 
£) Ca un caz particular al punctului e) se găsește că unele din cele mai rapide 
metode pentru rezolvarea formei discrete a ecuaţiei Poisson în geometriile 
simple se bazează pe o transformată Fourier parțială ce folosește FET 
(algoritmul FACR propus de Hockney (1965) prezentat în § 5.6.2). În 
aceste circumstanțe se impune execuţia mai multor transformate Fourier 
în paralel, de exemplu pentru transformarea datelor corespunzătoare 
fiecărei linii din cele 64 ale unui caroiaj 64x64, în paralel. În cazul unei 
aplicații meteorologice cînd se foloseşte o procedură de eșantionare în 
timp, sint necesare mii de transformate Fourier la fiecare moment de eșan- 
tionare (Temperton 1979 b). 

g) Rezolvarea problemelor cu mai multe cîimpuri poate fi exprimată ca 
o convoluţie între o distribuţie sursă şi o funcție-influență care descrie 
influenţa unui punct sursă asupra soluției. Folosind teorema convoluţiei, 
se obține că transformata Fourier a soluţiei este produsul, lungime de 
undă cu lungime) de undă, între transformata Fourier a sursei şi cea a 
tuncţiei-influență. Soluţia poate fi găsită prin : i) considerarea transfor- 
matei sursei; ii) înmulțirea ei cu transformata funcţiei-influenţă, 
care poate fi pre-calculată şi memorată ; şi, în sfirşit, iii) calcularea transfor- 
matei inverse pentru a obţine soluția. O astfel de metodă este convenabilă, 
numai prin folosirea FFT, şi a fost folosită intens pentru calculul poten- 
ţialului gravitațional în cazul unui sistem izolat de stele, adică o galaxie 
(Hockney 1970, Eastwood şi Brownrigg 1975, Brownrigg 1975), ca şi în 
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calculul interacțiunilor electrostatice în cristalele ionice, cînd s-a folosit; 
algoritmul P3M (Eastwood 1976, Amini și Hockney 1979, Hockney şi 
Eastwood 1981). 

Lista de aplicaţii nu este în orice caz exhaustivă. Alte aplicaţii ce folo- 
sesc filtrarea numerică, calculul invariantelor și a densităţilor spectrale, 
medierea şi filtrarea, ca şi transformata Laplace sint prezentate de Cooley 
et al (1967). 


5.5.1. Transformata Fourier rapidă 


Transformata Fourier rapidă este un termen folosit pentru un grup 
de metode folosite în evaluarea transformatei Fourier finite (sau analiza 
Fourier) : AR 

_ 1 ^- i i 

Jt = — Y exp(—2rijk/m) f, 0 <ksn-—l (5.71 a) 

D j=0 i 

unde f, sint cei n termeni complecși ce urmează a fi transformați, iar 
f* cele n amplitudini armonice complexe ce rezultă. O evaluare directă a 
definiţiei (5.71 a) ar necesita n înmulţiri complexe şi n sume complexe pe 
armonică, sau un total de 8n? operaţii aritmetice reale pentru evaluarea, 
celor n armonice. Valoarea algoritmului FFT constă în reducerea numărului 
de operaţii la aproximativ 5nlog,n operații aritmetice reale. Raportul 
dintre performanţa algoritmului FFT şi evaluarea, directă pe un calculator 
serial este : x 
Prrr/Pog = 8 n?/(5n log; n) = n/loga n (5.71 b) 


Acest raport variază de la aproximativ 18 (n = 128) la 102 (n = 1024) 
şi aproximativ 5 x 104 (n = 10%). De aceea nu surprinde faptul că publi- 
carea algoritmului FFT de către Cooley şi Tukey (1965) a condus la o 
revoluție majoră în cadrul metodelor numerice. Deși: Cooley, Lewis şi 
Welch (1967) citează lucrări anterioare conținînd ideea pentru metode cu 
nlogzn operaţii (de exemplu Runge şi Konig 1924, Stumpff 1935, Da- 
nielson iși Lanczos 1942, Thomas 1963) acestea nu erau cunoscute pe scară 
largă. Înainte de 1965, transformata, Fourier era considerată un proces 
costisitor n? ce putea fi folosit rareori și de obicei evitat; după 1965 a 
devenit un proces relativ ieftin, mai rapid decît era înainte cu mai multe 
ordine de mărime. 

Transformata (5.71 a) are inversa (sau sinteza Fourier) : 


n—1 5 : i 
f= X, expQrijk/n) J", 0 <j <n-—l (5.72 a} 


k=0 


ce poate fi demonstrată cu ajutorul relaţiei de ortogonalitate : 


n—i 4 
$ exp [27 ik (j—j')/n] = n ôy | (5.72 b) 
k=0 ` - 
unde òp, este simbolul Kronecker : | 
0jzj, 
3 = a (5.72 e) 
i i j =), 3 
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Ignorînd în ecuaţia (5.71 a) factorul în n-l, ce poate fi inclus în afara 
rutinei pentru transformata Fourier, atît transformata, directă cît şi cea 
inversă pot fi exprimate cu : 


n—1 
= ox, 0<j<n—1 (5.73 a) 
j=0 
unde 
PRE: exp(-— 2ri/n) în analiză, | (5.73 b) 
exp(+ 2zi/n) în sinteză (5.73 c) 


A 


Asocierea semnului „—” în analiza Fourier în ecuaţia (5.73 b) ca şi 
a semnului ,,-+-" cu sinteza Fourier este arbitrară. Am respectat convențiile 
teoriei transmisiei şi din lucrarea Bracewell (1965). Evident, alegerea este 
neesenţială şi poate fi ajustată prin alegerea corespunzătoare a lui wn. 
Algoritmul este acelaşi în ambele cazuri. Deoarece w, este a n—a rădăcină 
a unităţii, are proprietatea importantă că 


on=1l d (5.14 a) 

şi astfel 
$ ortt = (an) ot == ot 

unde s şi t sînt întregi. Definiţiile (5.73 b, c) arată de asemenea că orice 


factor comun poate fi înlocuit sau introdus atit în indicele cît gi exponentul 
lui wr fără a-i modifica valoarea. Astfel, de exemplu 


aa iz, ol = = ü= — 1 (5.74 b) 


Funcţia, ce urmează a fi transformată este frecvent reală, să o notăm cu g; 
iar transformatele sînt exprimate în termeni de sin şi cosin. Dacă presu- 
punem că n este pa: 


Si = = [ao + an (—1)] + 


Li 


a/2—1 


+ > [au ia ai jk/n) + bk sin(2x jk/n)] (5.75 a) 
unde | 
a = -E g; cos (27 isa ~ (5.75 b) 
şi j 
= F 5 g; sin yaa (5.15 c) 
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Coeficienţii transtormatei reale a, şi b, sint în următoarele relaţii cu părţile 
reale ale transformatei complexe (5.71 a) a lui g: i 


a, = 2 Re (g), by = —2 Im (F) (5.75 d) 


Deci, o transformată reală poate fi obţinută prin execuţia unei transfor- 
mate complexe de lungime n asupra unor date cu partea reală g; și partea 
imaginară zero. Părţile reale și imaginare ale primelor n/2 armonice ale 
transformatei complexe produc coeficienții transformatei reale cu ecuația 
(5.75 d). Următoarele n/2 armonice sînt redundante, fiind conjugatele 
complexe ale primelor n/2 armonice : 


T- = (™)* = Re(g*) — i Im (g*)}, 0 < k < n/2 (5.76} 


Metoda de mai sus de calcul al transformatei reale este evident neecònomică 
deoarece jumătate din datele de intrare sînt zero (toate părțile imaginare} 
iar jumătate din rezultate nu conţin noi informații și pot fi eliminate. 
Numărul operaţiilor aritmetice reale scalare este 5nlog,n. 

O metodă mai economică de realizare a transformatei reale constă, 
în interpretarea valorilor pare ale datelor reale de intrare ca părțile reale 
ale funcţiei ce urmează să fie transformată, iar valorile impare ale datelor 
reale de intrare ca părţi imaginare ale aceleiaşi funcţii, deci 


fi = ga i Sam 0 <j snP2-—l - - (5.77) 


Acum transformata complexă a lui f, este de lungime n/2 şi consumă 
2 x (1/2)nlogpn, operaţii reale scalare. În continuare se determină coefi- 
cienţii transformatei reale astfel : 
a) Se calculează pentru k = 1, 2, ...,n/4—1 transformatele celor n/2 
valori pare și n/2 valori impare : 


2 a2- T. a = 
nK O ni > Sai oke m 2 F + (J™2-¥)*] - (5.78 a) 
2 nj2-1 i 1 X 
Impa K £ Zain Oana = 7 Fi m (p- )*] (5.78 b) 
n j=0 | 2i i 


unde asteriscul notează conjugatul aA 
b) Se calculează pentru k = 1, 2, ...,n/4—1 transformata i nteuraciigu 
C, de lungime n/2 „definită cu 


C: = pare k+ on rnk i | (5.79 a) 
Cap = sapă = Con sapa (5.79 b) 


Capu = ip (5.79 €) 
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<) În sfîrşit se obţin coeficienţii transformatei reale cin 
as = Re (J?) -+ Im (f) `> (5.80 a) 


aa = Re (9) — Im (F°) i (5.80 b) 
ar = Re(C,) a ei 
ul ie sei e sa „(5.80 c) 


Numărul operaţiilor aritmetice svalare reale pata 2(1/2) )nlog.n + 3(1/2)n, 
uE i al doilea termen apare datorită prelucrării lui , în ecuațiile (5.78)— 
—(5.80). 

Calculul seriilor Fourier (5.75 a) pe baza coeficienţilor iu 75 b,c) 
poate îi realizat prin inversarea procedurii de mai sus astfel : 
2) Facem 


C = âo; Cap = dap (5.81 a) 
şi | 
| C: = Ay — i Dk, k = i ÎN 2, ...ș n/2—1 (5.81 b) 
b) Evaluăm T 
sas = F (Ci + Ofar) (5.82 a) 
i k =1,4..., n/4—1 
1 
mpk = 7 (Ok — Capa-u) wa” (5.82 b) 
c) i 
p” $= = ak ti impa E (5.83 a) 
k =1,2,...,n/4—1 
J slak mi] (5.83 b) 
şi de asemenea 
1 Ad, 
P= z (Co + Oa) + Z i(Co + Cap) (5.83 c) 
fn = Cfa. j ` (5.83 d) 


Apoi, se calculează sinteza Fourier complexă a celor n/2 valori complexe 
Fu, iar cele n/2 valori complexe rezultate conţin valorile sintetizate cerute 
sub forma unor succesiuni de părţi reale şi imaginare. 


a d 
= d i (2 n2 TRAE) Je = gu + iga j =0,1,. .,n'2— 1 (5.83 e) 
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Procedura de mai sus implică o pre-distribuire a celor n date reale sub: 
forma celor n/2 valori complexe, ce sînt apoi transformate cu FFT complexă. 
Ca şi în cazul analizei, numărul operaţiilor aritmetice scalare reale este 
2 .(1/2)n logn +3 x (1/2)n. 

Calculul transformatei Fourier reale este analizat de Cooley et af 
(1967) şi de Bergland (1968). O soluţie diferită, ce foloseşte varianta cu sin: 
şi cos este descrisă de Hockney (1970). Această ultimă metodă este o amal- 
gamare a metodelor de calcul prezentate de Runge (1903, 1905), şi Whitta- 

-ker şi Robinson (1944) şi furnizează în plus faţă de transformata periodică 
transformatele în sin şi cos. Lucrarea lui Cooley et al (1970) abordează 
acest subiect împreună cu transformata Laplace. Alte lucrări privitoare læ 
FFT sînt cele publicate de Gentleman şi Sande (1966), Singleton (1967, 
1969), Uhrich (1969), ca şi Brigham (1974). În acest capitol dorim să pre- 
zentăm numai principalele caracteristici ale algoritmului FFT ca gi unele 
consideraţii ce afectează implementarea sa pe calculatoare paralele. Pentru 
atingerea acestui scop vom limita discuţia la cazul binar (sau baza 2) 
pentru n = 21 (unde q este un întreg), deşi algoritmul poate fi aplicat 
eficient oricărui n care este un produs de numere prime mici ca valoare, 
care, preferabil, se repetă de mai multe ori. Astfel de algoritmi sînt pre- 
zentați de Singleton (1969) şi Temperton (1977), (1983 a, 1983 e). O va- 
riantă a algoritmului binar, foarte potrivită prelucrării paralele a fost pro- 
pusă de Pease (1968), iar performanţa multor algoritmi din cei propuși 
a fost analizată comparativ de Temperton (1979 b) prin implementarea, 
pe CRAY-1 și de Temperton (1984) şi Kascic (1984 b) pe CYBER 205 
Vectorizarea transformatei Fourier este tratată de Korn și Lambriotte 
(1979), Wang (1980) şi Swarztrauber (1982, 1984). Jesshope (1980 a) 
abordează implementarea algoritmilor în baza 2 rapizi pe masive de pro- 
cesoare; l 

Algoritmii de mai sus, variante şi extensii ale algoritmului publicat: 
de Cooley şi Tukey (1965), pot fi numiţi transformata Fourier rapidă con- 
ventională. Eficienţa lor constă în factorii de n ce se repetă de multe ori. 
În mod curios, mai există o formă a transtormatei Fourier rapide, denumită 
algoritmul cu factor prim (prime factor algorithm — PFA), în care n este 
divizat în factori primi între ei irepetabili. Această metodă a fost propusă 
iniţial de Good (1958, 1971) şi Thomas (1963) şi dezvoltată ulterior de 
Kolba şi Parks (1977), Winograd (1978) și Johnson şi Burrus (1983). Me- 
toda este aplicată în prelucrarea semnalelor (Burrus 1977, Burrus și 
Eschenbacher 1981) şi este descrisă complet în cărţile publicate de McClellan 
şi Rader (1779) și Nussbaumer (1982). Temperton (1983 b, 1985, 1988) 
tratează implementarea PFA pe calculatoarele vectoriale curente. 

Un aspect al acestor metode este manipularea formulelor algebrice 
pentru FFT în sensul minimizării numărului de înmulţiri. Teoria privind 
această tehnică a fost dezvoltată de Winograd (1978, 1980), iar metoda 
a fost folosită extensiv pentru calculul FFT și al convoluţiilor de către 
Cooley (1982) şi Auslander şi Cooley (1986). Auslander (et al) "în 1984 
analizează stabilitatea numerică a algoritmilor rezultați. 
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5.5.2 Deducerea FFR 


Cheia pentru deducerea algoritmului transforimatei Fourier rapide 
este definiția corespunzătoare a transformatelor parțiale intermediare. 
Vom adopta definiția folosită de Roberts (1977), cu o modificare a notațiéi. 
Transformatele parțiale an date, fo, fi; - - - fn-1 la nivelul 1 al transformatei 
se definesc cu : 


ü) 2—1 


f= Y o fpr (5.84 a) 
j=0 
unde 
jk =0,1, ... 2—1 (5.84 b) 


şi i este un indice întreg cu valorile 
i= 0,1, ... 027 —1 (5.84 c) 


Am definit n2-! transformate. Fiecare se distinge prin numărul de 
identificare i, un index față de prima dată de la care începe calculul trans- 
formatei.. Datele rămase se separă de pnma prin intervalul n2-!. Lungimea 


fiecărei transformate este 2’. Astfel, G este armonica ak—a a transfor- 


matei i la nivelul 1 (vom folosi notația P numai în text). Cind 1 = ) 
avem j=k = 0 şi 


0 


R = fe i=01,.. 0—1 (5.85 a) 


De aici, transformatele de la nivelul 0 sînt datele iniţiale, La nivelul 
leq, unde q = log.n avem i =0 şi 


(a) n—1 


fi = Y ok, = af | (5.85 b) 


Astfel, la nivelul logn există numai o transformată parţială care este 
proporţională cu transformata completă, cerută corespunzătoare tuturor 
datelor iniţiale n. m 

LR 

Este folositor să interpretăm transformatele parţiale î ca elemente 
ale unei matrici bidimensionale cu 2! linii şi n2-! coloane, formată prin 
scrierea armonicelor fiecărei transformate: parţiale ca un vector coloană. 
Ampoi, se începe la nivelul 0 cu o singură linie de date și se termină, la 
nivelul log,n cu o singură coloană de rezultate. La trecerea de la un nivel 
la celălalt numărul coloanelor se înjumătățește, iar numărul liniilor se 
dublează. Nu trebuie considerat necesar ca transformatele parţiale să se 
memoreze în calculator ca variabilă masiv bi-dimensional. în FORTRAN 
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se foloseşte invariabil indexarea după o dimensiune şi vom vedea că se 
poate economisi spaţiu de memorie dacă se calculează amplitudinile 
armonice într-o ordine diferită de cea naturală. Se poate folosi indexarea 
bi-dimensională dacă limbajul posedă construcţiile paralele necesare, 
implementate eficient, aşa cum s-a discutat în § 4.3.1 (iii). 

Aritmetica algoritmului se obține prin derivarea unei recurenţe pentru 
transformatele parțiale la nivelul 1 + 1 în termenii nivelului 1 : 


(+1) altl 


E= § ofnaf ți (5.86 a) 
j=0 


Împärțind termenii sumei în două prin notația j = 2s + t, cu s = 
= 0,1, ..., 2, iar t = 0, 1 se obţine: 


f , 
= 25+thk . 
E = E Boti Sfory mar ti (5.86 b) 


Reamintind definirea lui e ca a 2!*! rădăcină a unităţii, obţinem 


ik 25k tk sk 
= oroin = on oi (5.86 c) 


(25+t)k 
Oli 
unde, la ultimul pas, am înlocuit; factorul comun 2 din indicele şi expo- 
nentul celui de-al doilea factor. Înlocuind ecuaţia (5.86 c) în (5.86 b) şi 
separind termenii corespunzători lui t = 0 şi t = 1 se obţine: 


(+1 d | pt a 
~k s 
fi = aş fotti + oen £ wi sua i+na—(1+ 1) 
s=0 d s=0 i 
Deci 
UD D p B ' 
fe = fE + ogn fina tit i "(5.87 a) 
Înlocuim pe k cu k +2! 
E EA (5.87 b 
fe = JE — oga fiten | a B 
U o 
deoarece fi? = ff din ecuația (5.84 a), şi 
k+2! 2! k k k l 
OJH = Witt O l= O Ot = — H (5.87 e) 


La ultimul pas al ecuaţiei (5.87 c) am înlocuit factorul comun 2! din 
indicele gi exponentul primului factor, şi am folosit faptul că w,= —1. 
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În concluzie, varianta Cooley-Tukey (1965) a algoritmului FFT este ; 


D M, p M l 
F =f + op faza (5.88 a) 
D p 1) iii tai i căi 
n) KSL š 
ft = f ofm Ea UD (5.88 b) 


unde k = 0, 1, ...,21—1 şi i = 0, 1, ...,n2-%P —1 cu condiţia de start 


(7) 
fi = fu. Rezultatul transformatei se obţine cu: 


F=- | (5.88 c) 


(1+1) n dh D 
Dacă ff se scrie în memorie peste Fi, iar fisa peste J¥,n -0+9 atunci nu 
este necesar spaţiu de memorie suplimentar, Armonicele finale se obţin 
în ordinea binară inversă. Dacăk — k, pai + ke, a t. .+k12+ko 


unde k, este cifra de pe poziția p în reprerentajia binară a lui k, atunci 
(9) 


această armonică se va afla în locaţia fi unde k’ = kọ 20-13 29-2- 
+ka-2 2+k a-2- Dacă analiza a: monică trebuie urmată de o sinteză care in- 
versează pașii de mai sus, atunci nu mai este necesară sortarea armoni- 
celor în ordinea naturală. Acest caz apare în rezolvarea problemelor de 
cîmp cu metoda conv oluţiei. Dacă armonicele sint date de ieșire, se va 
impune o sortare la sfirșitul execuţiei algoritmului de bază. Această sor- 
tare e cunoscută de obicei cu numele de inversare binară (bit-revergal), 
deoarece a1monicele sint produse în această ordine. Altfel, dacă se elimină 
scrierea, în aceleaşi locaţii de memorie prin depunerea rezultatului într-un 
alt masiv, sortarea poate îi executată la fiecare nivel, așa cum se arată 
în figura 5.12. 


Transformata Fourier rapidă a ecuaţiilor (5.88) poate îi inversată prin 
rezolvarea la nivelul 1 în termenii nivelului 1 + 1,  Ahțpinintoria transfor- 
mata inversă : 


ü) (+1) (1+1) 


R= DIR) | (5.89 a) 
ntru 1 = q—1, q—3,... 
a, asa pu pentru 1 = q—1, q—2,..., 0 
razii = > o (Jf fi) (5.89 b) 


unde k = 0, 1,..., 21—1 şi i =0, 1,..:,n2-™0Ð—1 cu condiția de start : 


(a) 


=n - (5.89 c) 
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Rezultatele sintetice se găsesc din 


(5.39 d) 


Fig. 5.12 Diagrama de circulaţie a datelor pentru varianta 

Cooley-Tukey a transformatei Fourier rapide. Căsuţele eva- 

Imrează recurenţa (5.88). Numărul din căsuță este puterea rădă- 

cinii n a unităţii, folosită ca un factor de fază. (După Tem- 
perton 1977). 5 


O analiză a ecuațiilor (5.89) arată că rezultatul final nu se modifică 
dacă factorul n este eliminat din ecuațiile (5.89 c), iar factorii de 1/2 
sînt eliminați din ecuaţiile (5.89 a) şi (5.89 b). Aceasta echivalează cu 
introducerea factorului 2-1 în membrul drept al definiției transformatei 
parțiale (5.48 a). 

Deoarece o transformată inversă poate fi scrisă ca o transformată 
directă prin înlocuirea lui w cu w~}, schimbarearolurilor între f şi f şi prin 
înmulţirea cu n-! în mod convenabil, ecuațiile (5.89) mai asigură o formu- 
lare alternativă a transformatei directe : 


u ü+1) (+n 


EFES i (5.90 a) 
pentru l = q—1, q—2,...,0 


r e (CD den 
fimt = oan f — fe). (5.90 b 
unde k = 0, 1,..., 2—1 şi i = 0, 1,...,yn2-4b—1 cu valoare de start 


la) 


fe = fe (5.90 e) 
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şi rezultatele 


o 
fi=n-f (5.90 d) 


Aceasta, este varianta Gentleman-Sande (1966) a transiormatei Fou- 
rier rapide. 

FFT se mai poate baza pe recurenţele (5. 88) sau (5.90). Implementările 
mai pot; diferi prin modul de memorare a transformatelor parţiale inter- 
mediare. De exemplu Ubrich (1969) foloseşte ecuaţiile (5.88), iar Pease 
(1968) ecuaţile (5.90). 


5.5.3 Veetorizarea 


Tehnicile pentru implementarea FFT pe calculatoare vectoriale pipe- 
line pot fi ilustrate de codul FORTRAN pentru algoritmul Cooley-Tukey 
(ecuațiile 5.88), prezentat în fig. 5.13. Acest program constă dintr-o rutină 
de control (în partea superioară) care apelează subrutina RECUR pentru 
evaluarea, recurenţei (5.88). RECUR (F, G, W, L, N) execută odată recu- 
rența pentru L = | asupra datelor de intrare furnizate de vectorul com- 
plex F şi plasează rezultatele în vectorul complex G. Vectorul W conţine 
puteri ale rădăcinii n a unităţii, iar N = n este numărul total al variabilelor 
complexe. La nivele succesive intrările și ieşirile alternează între masivele 
F şi G, de aceea apelurile la RECUR se fac în pereche. Deoarece vectorii 
F şi G sint diferiţi, ieșirile nu se scriu în spațiul pentru intrări. Aceasta 
determină menţinerea armonicelor în ordine naturală şi permite celor mai 
multe compilatoare să vectorizeze instrucţiunile buclei DO Il. Presupu- 
nem că W a fost încărcat înainte cu puteri ale rădăcinii n a unităţii astfel 
încât 


ct este memorat în W (k + 1) (5.91 a) 

iar transformatele parţiale sint aranjate astfel încît; ie e 
n 

JE este memorat în F sau G (2i + k + 1) (5.91 b) 


Celelalte variabile FƏRTRAN sînt LI =1+ 1, Ki = k +1, IL = 
=i +1, I2L=2, N2L1 = n2-0+0, I2L2 = alu, N2L25 = n2- =a, 
LOG2N = logn. Instrucţiunile din interiorul buclei DO 20 realizează 
implementarea recurenţei Cooley-Tukey (5.88). Ele sînt scrise cu indecşii 
explicit în ‘termenii variabilelor de control ale buclei pentru a ilustra 
posibilitatea, de vectorizare. 

n forma scrisă mai sus, cele mai multe compilatoare vor înlocui 
bucla DO I1. cu instrucţiuni vectoriale. Deoarece W nu este o funcţie de 
Il, va fi înlocuit de scalarul Wk în bucla interioară care poate îi imple- 
mentată cu instrucţiuni de forma 


vector = vector + scalar * vector 
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Lungimea vectorului este n2-4*P gi descrește la fiecare apel al subrutinei 
RECUR, luînd valorile n/2, n/4, ..., 4; 2, 1. Intervalul între locaţiile de 
memorie ale elementelor succesive ale vectorului F, folosite în bucla DO 11, 
este 21 şi ia valorile 1, 2, 4, 8, 16, ...,n/2. În consecinţă, în ultimele faze 
ale algoritmului vor exista conflicte de acces la memorie pe calculatoare 


c MAIN CONTROL FROGRAM 
N = 2$8L062N 
DO 10 Li = 3, LOG2N, 2 
CALL RECUR (F, G, W, Li-1, N) 
. `IFe(L1.EJ.LOGZ2N) STOP. 
10 - CALL RECUR (S, F, W, LI, N 
STOP 


SUBROUTINE RECUR(F, G; W, L, N) 
COMPLEX F(N); G(N), WND, VIN); WK 


12L = 28L 

12|.4 = 28 %IZL 

N2Lî = N/I2Lt 

INC1 = 12L 

IF (|_.6E.2) INCA = INCI+L 
INCZ = I12L1 


IF (L+1„6E.2) INC2 = INC1 
INCA = 12i.-INC2 
DO 20 Ki =1,. IZL 
VK = vit N2LIXKI—N2Li+1) 
DO 20 îi 1,N2L1 
VLIL) = WKF (INZIXI1+K1+INC3) . 
G(INC2EI1+K1-INC2) = F(INCIEII+KI1-INC1) + V(I1) 
20 G(INC2411+Kî+INC4) = F(INCLXII+KI-INC1) = VIII) 
RETURN i 
END 
Fig. 5.13 Programul de control și subrutina RECUR pentru schema A cu 
vectorizarea buclei DO I1 


cu un număr de blocuri de memorie putere a lui 2. De exemplu, pe CRAY-T 
vor exista conflicte pentru l> 2 sau intervale multiple de 4 numere 
complexe sau 8 numere reale. 

Aceste conflicte pot fi eliminate cu costul unui mic spaţiu de memorie 
suplimentar, prin adăugarea, unităţii la intervalele de memorare INCI 
şi INC2 pentru 1 > 2. Spaţiul de memorie necesar creşte cu 1/4, iar inter- 
valele între locaţiile de memorie ale elementelor succesive ale vectorului 
F devin 1, 2, 5, 9,17, ...,n/2 + 1 la nivelele 
1 = 0,1, 2,3, 4, ..-,logz(n) — 1. Această modificare în modul de memo- 
rare are loc în instrucțiunea, IF tocmai înainte de bucla DO 20. |, 

În bucla DO 20 sînt 10 operaţii aritmetice reale scalare, deci pe un 
calculator caracterizat de un D, timpul de execuţie al acestui algoritm 
(pe care îl denumim schema A) este proporţional cu : 


e loga(n)—1 


t= $ Omet n- 2-0+0) 21 (5.92 a) 
1=0 
loga(0)—1 loge(n/—1 
=10n Ș 2+5 Ý 1 (5.92 b) 
1=0 1=0 
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Ultimul termen al ecuaţiei (5.92 c) este numărul obișnuit de operaţii seriale 
pentru algoritmul FFT (cînd Day = 0), iar primul termen oglindește efectul 
paralelismului hardware prin intermediul valorii lui Nae. 

- Este evident că buclele DO K1 și DO I1 pot fi inter-schimbate fără a 
modifica efectul instrucţiunilor buclei DO 20. Dacă se face aceasta, cum şe 


- 


SUBROUTINE RECUR (F, G, W, L,. N) 
COMPLEX F(N), GIN), VIN), WN) 


: £ 12L = 244. 
12Li = 2RI2L 
N2L1 = N/I2L1 
INCI = IZL 


IF (L.GE.2) INCL = INCA+1 
INC2 = 12.41 

IF (L+1.GE.2) INC2 = INC2+1 
` INCS = N2LIKINCI-INC1 

INC4 = 12L-INC2 


DD 20 I1 = 1, N2L1 
DO 20 K1 = 1, 12L 
VEL) = WIN2LIAXKI-NZŽL1+1) XF (INCIX11+K1+INC3) 
G(INC2%It+4K1-INC2) = F(INC4I1+K1-INC1) + V(K1) 
20 G(INC2XI14K1+I1NC4) = F(INCiXI1+K1-INC1) = V(Ki) 


" RETURN 
END 
Fig. 5.14 Subrutina RECUR pentru schema B cu verctorizarea buclei 
O K1 


arată în fig. 5.14, bucla DO K1 devine cea mai interioară şi poate fi înlo- 
cuită cu instrucțiuni vectoriale. Lungimea vectorului este 2! sau 1, 2, 
4, ..., n/2 la treceri succesive, iar intervalul între locațiile de memorie 
este n279 sau n/2, n/4,..., 4, 2, 1. Conflictele de acces la memorie sînt o 
problemă serioasă în fazele timpurii ale execuţiei acestui algoritm, dar 
pot fi evitate în maniera descrisă anterior. Acum variabila W este un 
vector în bucla interioară, iar înmulţirea este o operaţie vector * vector, 
Timpul de execuţie al acestui algoritm alternativ (schema B) este propor- 
ional cu 


loga(n)—1 j 
ts= 3, 1001+ 21) n2- (5.93 a) 
1=0 
logs(n)—1 loga(n)—1 
=10np $ m 4őn Ý 1  (5.93b) 
1=0 1=0 


cu l’ = log, (n)—1—l şi inversînd ordinea primei sume se obţine 


loga(n) —1 
ta = 10 Y 2" + 5n logn (5.93 c) 
1=0 
= 10 n,p(n—1) + 5n log. n (5.93 d) 
=, (5.93 e) 
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Deci, cele două scheme se execută în acelaşi interval de timp. T otuşă 
au caracteristici diferite. Schema A începe prelucrările cu vectori lungi, 
care se reduc în dimensiune odată cu âvansarea procesului de calcul, în. 
timp ce schema B începe cu vectori mici care cresc în lungime cu avansatea 
procesului de calcul. Performanţa tuturor calculatoarelor paralele crește 
odată cu creşterea lungimii vectorului, de unde sugestia pentru un nou 
algoritm. Se execută primele p nivele ale algoritmului FFT cu schema A, 
iar ultimele q—p cu schema B. Acest algoritm combinat se execută într- -un 
timp proporțional cu 


p~l logz(n)—1 s 
tars = 10 D1; ( 7+ 5 n:2-00) + 5nlogn (5.94 ap 


= 10 n(2 + n-2-? — 2) + ön logn (5.94 b} 


Prin derivarea ecuației (5.94 b) în raport cu p, se găsește condiția de minim 
a timpului de execuție. 


a = 10 n, pp l0ge 2(2P? — n2-P) = 0 (5.95 a) 
Deci 
2 = n/2, 22 =n (5.95 by 
şi 
y $ log, n (5.95 e) 


Cu acest p optim, lungimea vectorului minim este 2 = Vn (sau F n 


dacă n nu este un multiplu de 4 }, iar timpul de execuţie (presupunind că 


n este un multiplu de 4) este 


tas = 20 Dapp(/n—1) + 5 n log, n (5.96) 


Acest tip de algoritm combinat a fost dezvoltat în mod inflependent de 
Roberts (1977) şi Temperton (1979 b). Versiunea propusă de Temperton 
se bazează pe recurența Gentleman-Sande (5.90) şi reprezintă baza sub- 
rutinei CFFT2 scrisă în limbaj de asamblare CAL de Petersen (1978) pentru 
biblioteca de programe ştiinţifice a calculatorului CRAY X-MP. 

Orice algoritm eficient mai încorporează două simplificări. Acestea 
se referă la valoarea multiplicatorilor o5l +1 = opa», care intervin atît 
recurența Cooley-Tukey cît şi în recurențele Gentleman-Sande. Cînd k = O 
multiplicatorul este unitatea, iar operaţia de înmulţire poate fi eliminată 
prin scrierea unei bucle separate pentru acest caz. La calculul primului 


420 


nivel al transformatelor parţiale, cind 1 = 0 în recurenţele (5.88), această 
situație intervine la; fiecare evaluare a ecuaţiilor (5.88). La alte nivele, 
intervine la prima utilizare a ecuaţiilor. La calculul celui de-al doilea 
nivel al transformatelor parţiale, pentru 1 = 1 în ecuaţiile (5.88), k = 0, 1 
şi multiplicatorii sînt 1 respectiv i. Deoarece înmulţirea cu i nu face decît 
să schimbe părţile imaginară şi reală şi modifică semnul părţii imaginare, 
nu este necesară nici o înmulţire pentru calculul transformatelor la al 
doilea nivel. Din nou se folosește o buclă separată și pentru acest caz. 

„Dacă numărul elementelor n ce sînt transformate conţin factori de 
4, se pot reduce mai mult operaţiile necesare (Singleton 1969). Devine 
avantajos să se combine două aplicaţii ale recurenţei (5.88) mto singură 

i UD [iuti 

recurenţă implicind 4 valori de intrare fE şi 4 valori de ieşire fi. Dacă pre- 
supunem că n este o putere a lui 4 și deci log, n este par, se poate calcula 
transformata cu recurenţa : l 


pentru l = 1, 3, 5, .. .„ 10g; (n)—1 
1 1 ` —(14+1) 
pentru k > Alan 2!—1; i = 0,1, ..., n27% 


« 


1—1) 0—1) 0—1) 


a = onn Silar, b = wri Ji’, C= ina fi dcr! (5.97 a) 
` ah 

d = ff +b,g=ațe (5.97 b) 

t-n 

e= ji —b,h=a-—c „(5.97c) 

+1) U+ i 

fi =d+g, fF =e+ih (5.97 d) 

tu +D sa 

=d —g, fi 32 =e — ih (5.97 e) 


Evoluţia procesului de calcul pentu cazul în care n este o putere a 
lui 4 (n = 42) este prezentată în fig. 5.15. Evaluarea recurenţei (5.97) 
implică trei înmulţiri pentru a-i calcula pe a, b şi e și 8 adunări complexe, 
conform ecuaţiilor (5.97 b, c, d, e). Deci, 34 operaţii reale pentru (1/2) 
logan valori ale lui 1 și n/4 combinaţii ale lui k şi i. Rezultă un total de 
4,25 n logan operaţii reale, în comparaţie cu 5 log;n pentru transfor- 
mata corespunzătoare unei puteri a lui 2, tau o economie de 15%. Dacă 
l= 1, k = 0 , toţi multiplicatorii sint unitatea și, ca și în cazul transfor- 
matei putere a lui 2, se justifică programul suplimentar pentru a se elimina 
operaţiile nenecesare. Transformatele corespunzătoare lui n putere a lui 2 
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şi a lui 4 pot fi combinate ușor pentru a se realiza o transformată eficientă 
pentru orice putere a lui 2, care elimină din n intii factorii de 4 şi apoi, 
dacă este necesar, un factor de 2. 


Fig. 5.15 Evoluţia procesului de calcul corespunzător transfor- 

matei cu n=16. Căsuţele reprezintă evaluarea recurenței (5.97). 

Numărul din căsuță este puterea cetei de-a n-a rădăcină a 
unităţii folosită la evaluarea constantei a. ` 


5.5.4 Implementarea paralelă 


Pentru masivele de procesoare se pot obţine performanţe ridicate 
dacă paralelismul algoritmului este făcut să corespundă paralelismului 
hardware al masivului, adică numărului de procesoare masiv. Paralelismul 
algoritmilor analizaţi în $ 5.5.3. variază dela n/2 la yn şi deci nu sînt foarte 
convenabili pentru implementare pe masive de procesoare, care au un 
număr fix de procesoare, deci paralelismul este fixat. Totuși, dacă sînt 
combinate sub forma unei singure bucle, buclele DO K1 și DO I1 din 
figura 5.13 sau 5.14, toate operaţiile aritmetice pot fi executate cu un para- 
lelism fixat n. Dacă acesta corespunde masivului (de exemplu, transfor- 
marea a 4096 valori pe un calculator ICL DAP 64x64), se atinge idealul. 
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' Vom numi algoritmul de mai sus PARAFT deoarece este cel: mai 
indicat „pentru execuţia pe paracalculator. În fig. 5.16 se prezintă, detalii 
ale subrutinei RECUR. Bucla DO 20 nu conține- operații. aritmetice, ci 
constă numai în transferuri de-date necesare pentru pregătirea operaţiilor 
ce se vor executa în bucla DO 30. Masivele complexe U şi E sint copii. ale 


SUBROUTINE RECUR (Fr G, W, Ls N 
COMPLEX FN), G(N), W(N), UCN), E(N) 


I2L = 2%4L 

I2Li = 2%12L 

“N2L1 = N/I2L1 

INC1 = I2L 

INC2 = I2L1 

"INC3 = N2LIFINCI-INCL 
INC4 = I2L — INC2 


DO 20 Ki = 1, IRL 
DO 20 I1 = 1,N2L4 


„U(INC2Ri 1+K1-—INC2) F(INCIXIL+KI-INCL) 


UCINC2KI 1+k1+INC4) = F(INC1XI1+K1-INC1) 
E(INC2X11+K1-INC2) = F(INCiXI1+K1+INC3) 
E (ÎNC2311+K1+I1NC4) = -F(INC1kI1+K1+INC3}) 
, V(INC25I1+K1-INC2) = W(N2L1%Ki-N2LÍ+1) 
20 V(INC2%K11+K1+INC4) = W(N2L1%K-N2L1+1) 


DO 30 3+1,N 
EJ) '= V(I)XEUI) 
30 GD = UDHE) 
RÈTURN 
END 


Fiig. 5.16. Subrutina RECUR pentru PARAFT cu lungimea vec- 
torului N în bucla DO 30. 


masivului F cu o modificare de semn ce corespunde semnului minus din 
ecuația (5.88 b). Masivul complex V conține copii ale multiplicatorilor 
în pozițiile corecte astfel încît cele n înmulţiri ale ecuațiilor (5.88) să poată 
fi executate în paralel cu prima instrucțiune din bucla DO 30. A- doua 
instrucțiune din bucla TO 30 execută & LO cele n sume ale ecuaţiilor (5.88) 
în paralel. 

Cum s-a menţionat în $ 5.5.3 în rodie d două apeluri ale subrutinei 
RECUR cu 1 = 0 şi 1 = 1 nu se execută înmulţiri. Într-un program efi- 
cient se va implementa cod pentru aceste cazuri, ca şi pentru transfor- 
mate corespunzătoare puterii lui 4. Cînd se evaluează timpul de execuție 
ai algoritmului, ar trebui considerate și operațiile de transfer din interiorul 
buclei DO 20. În cazul masivelor de procesoare, unde operațiile aritmetice 


sint mai lente în comparație cu cele de transfer, cum e cazul la ICL DAP, 
bucla DO 20 nu va reprezenta prea mult din timpul de execuție. De exem- 
plu, cînd se execută 1024 transformate complexe pe un calculator ICL 
DAP 32 x 32, operațiile de transfer reprezintă 10—20% din timpul total 
(Flanders et al 1977). Pentru masive cu procesoare mai puternice, bucla 
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DO 20 va avea o importanță mai mare. Numeroase masive de procesoare 
au conexiuni şi circuite speciale pentru transferuri, tocmai pentru exe- 
cuţia lor eficientă în cazul transformatei Fourier rapide. Goodyear 
STARAN şi Burroughs BSP sint două exemple (vezi capitolul 3). 

Analiză fig. 5.16 arată că algoritmul PARAFT necesită o înmulţire 
complexă şi o adunare complexă cu paralelism n, la fiecare nivel. Acestea 
sînt echivalente cu 8 operaţii reale cu paralelism n la log,n nivele sau, dacă 
se consideră că operaţiile de transfer sînt neimportante, timpul de exe- 
cuţie este proporțional cu 


tpagarr = 8(Naja + n) logn (5.98 a) 


Comparind ecuaţia (5.98 a) cu timpul pentru schema A +B din 
ecuația (5.96) găsim ca PARAFT are o performanță mai bună decit A+B 
dacă 


ny, > 3n log„n/[20(V/n—1)—8 log, n] (5.98 b) 


În fig. 5.17 se prezintă, pe această bază, zonele din planul (n, niz) 
care avantajează fiecare din cei doi algoritmi cu (m = 1). Consideraţiile 
de mai sus sînt valabile pentru calculatoare pipeline şi masive de proce- 
soare într-un sens larg (vezi $ 1.3.3). Există şi alte alternative, iar Jesshope 


19 
“ (A+B par 
01 

N 

£ 

E 

001 PARAFTpar 
0,001. 
1. %0 100 1000 10000 


n 


Fig. 5.17 Regiunile planului (n, m/n,/.) unde fie schema A+B, 
fie algoritmul PARAFT au performanţa cea mai bună, cind se $ 
aplică în paralel celor m transformate Fourier de lungime n. 
Cind m = 1 se poate alege cel mai bun algoritm pentru o 
singură transformată 


(1980 a) a arătat că o combinație a celor două metode este avantajoasă pe 
masive de procesoare cînd numărul n depăşeşte dimensiunea masivului. 
În acest caz n este înjumătăţit succesiv cu ajutorul schemei A + B, pînă 
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ce lurigimea transferului este inferioară dimensiunii masivului. La acest 
nivel se folosește algortmul PARAFT pentru finalizarea transformatei. 

Apoi, dacă trebuie calculate m transformate fiecare de lungime n, 
soluția va depinde de gradul de paralelism dorit. Se vor alege la început 
metodele cu un paralelism maxim şi se va compara performanța schemei 
A + B şi PARAFT în cazul aplicării simultane celor m transformate. 
Aceste metode sint utile pentru maşini cu un paralelism natural ridicat, 
ca CYBER 205 şi ICE DAP. i 

Timpii de execuție vor fi proporționali cu 


tlasa, = 20 Dia (Vn—1) + 5 m-n log, n (5.99 a) 


UPARANT pay = g (n12 -+ m * n) log.n (5.99 b) 


Compariînd cu ecuaţia (5.4 b) vedem că lungimea vectorului mediu este: 
t 

că m-n-log,n 

D = — 5.99 e 
(4+B)par 4(/n-— 1) ( l ) 


Dirar, = M-n | (5.99 d) 


Ecuațiile (5.99) arată că algoritmul (A-+B) par aie o performanţă mai 
bună cînd 


m > 20 (Vn — 1) — 8 logn (5.99 e) 
Di2 3n log, n ; 
Regiunile planului (n, m/ny/2) ce avantajează cele două metode sint 
prezentate în fig. 5.17. Se observă că schema (A + B)par este favorizată 
cînd fie numărul transformatelor, fie lungimea lor devin mari. 

Dacă, altfel, este avantajoasă limitarea paralelirmului algoritmului 
la aproximativ n sau m, ne putem întreba dacă este avantajos de a repeta 
cel mai bun algoritm pentru o singură transformată de m ori, sau să alegem 
cel mai bun algoritm serial și să-l executăm în paralel pentru cele m sis- 
teme (algoritmul MULTFT). Algoritmul serial eel mai bun este fie schema 
A, fie schema B cu ni2 = 0, caracterizați de 5nlog,n operaţii reale scalare. 
Algoritmul MULTFT are lungimea vectorului mediu Dyvrrrr = M şi 
se va executa într-un timp proporțional cu : 


+ 


tuvrrer = ÖN(Di + m) log „n (5.100 a) 
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Cind se aplică secvențial de m ori, celor m sisteme diferite, ceilalţi algo- 
ritmi se vor executa într-un timp proporțional cu 


ė 


tatea = M [20 mny (0—1) + 5 nlogan] (5.100 b) 
tpaRaFTseq = 8 M (Diya + n) logan (5.100 €) 
cu tungimele vectorului mediu 


= n logn = 


D (48) sea 7 a? DpaBaPrgeg] = D (5.100 d) 


Deci, algoritmul MULTFT va avea o performanță superioară schemei 
(A + B)sea dacă . 


n logn 


> d a) (5.101 a) 


şi va avea o performanţă superioară algoritmului PARAFTagt dacă 


m _ 70,625 n/n 


(5.101 b) 
Dye 1+ 0,375 n/n 


Curba plină din figura 5.18 este o reprezentare a ecuației (5.101 a) 
şi arată regiunea din planul (n, m) unde fie MULTFI, fie schema (A -p B)sea 


Fig. 5.18 Alegerea celui mai bun algoritm 
pentru calculul a m transformate Fourier ra- 
pide, fiecare de lungime n, pe un calculator cu 
paralelism natural aproximativ m sau n, pentru 
care schema A+B este cea mai bună metodă de 
calcul al unei singure transformate (vezi fig. 5.17). 
Cel mai bun FFT serial se aplică în paralel 
transformatelor, MULTFT sau schema A+B se 
aplică secvențial, (A+B}e. În acest caz o sin- 
gură curbă este valabilă pentru toate valorile 
lui ny/e și împarte planul (n, m) în regiuni unde 
fie MULTET, fie schema (A+B)sea au pertor- 
manta cea mai bună. Cerculeţele provin din re- 
zultatele măsurătorilor lui Temperton (1979b) pe 
! “Jane CRAY-1. 
| z a iei le biti câ 7 

10400 1006 10000 


are o performanţă superioară. Observăm că ecuaţia (5.101 a) este inde- 
pendentă de n, şi o singură reprezentare grafică se aplică tuturor calcula- 
toarelor. Deci, în sens larg, dacă numărul sistemelor ce urmează să fie 
transformate depăşeşte 1/10 din lungimea sistemelor, atunci este avanta- 
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jos să folosim cel mai bun algoritm serial pentru toate sistemele în paralel, 
decit; cel mai bun algoritm paralel pentru fiecare sistem în secvenţă. Tem- 
perton (1979 b) a comparat performanța a 2 programe FORTRAN pe 
CRAY-1 pentru algoritmi comparabili cu MULTFT şi schema (A + B)seq. 
Măsurătorile sale sînt prezentate pe aceeaşi figură, cu cerculeţe și linie 
punctată. Aceste măsurători concordă cu rezultatele teoretice prezentate 
anterior şi vor fi în concordanţă perfectă dacă viteza anticipată a algorit- 
mului MULTFT relativă la cea a schemei (A + Be, vă crește de un 
număr între 2 şi 3. Acest rezultat este de aşteptat deoarece algoritmul 
MULTFT are o indexare mult mai simplă decît schema (A+B)seq (incre- 
mentul buclei vectoriale cea mai interioară pentru cele m sisteme este 
întotdeauna unitatea) și de aceea memoria este accesată în modul cel mai 
convenabil. 

Fig. 5.19 ilustiează o ccmraaţie similaiă între MULTET și aplicarea 
secvenţială a algoritmului PARAFT. Se folosește cînd, pe baza fig. 5.17, 
se deduce că algoritmul PARAFT este cel mai bun pentru execuţia unei 
singure tr ansformate: Pot fi folosite următoarele valori limită : 


_ pe n, D Dyg (5.102 a) 
0,454 Dijaz; N=hp (5.102 b) 


iar pentru n mare se atinge o valoare limită a lui m 


ii "m = 1,67 D n > Dyg (5.102 e) 


5.5.5 Considerații privind operațiile de transfer 


* Comparațiile performanțelor efectuate mai sus se bazează pe presu- 
punerea că întîrzierile datorate operațiilor de transfer nu influențează sem- 
nificativ timpul de execuție (vezi § 5.1.4). 


Fig. 5.19 Alegerea celui mai bun algo- i MULTFT A 
ritm pentru calculul a m transformate j 


Pa 
Fourier rapide, fiecare de lungime n, pe | ia 

f 

] 


un calculator cu paralelismul natural de 
aproximativ n sau m și pentru care S 
PARAFT este cea mai bună metodă de zo g 
calcul al unci singure transformate (vezi 

fig. 5.17). PARAFT se aplică secvențial š 
celo? m transformate, PARAFTse- Curba ~y 
separă în planul (n/n,/) regiunile în care 001 
tie MULTFT, fie PARAFTaea au o per- : 


formanţă mai bună. E 
ul ip ie due eul ue a a 
1 ai 


PARAFTseq 


tu 
A 
N 
-J 


Astfel de întirzieri influențează performanţa masivelor de procesoare 
pentre care PARAFT este probabil cel mai bun din punct de vedere al 
operaţiilor aritmetice (vezi fig. 5.17). De aceea, vom aborda problema trans- 
ferului pentru acest algoritm. Evident întirzierea datorată transferurilor 
va depinde de topologia de interconectare a procesoarelor din masiv. Este 
motivul pentru care vom considera o clasă generală de astfel de conexiuni, 
care include cele mai multe din topologiile calculatoarelor comercializate. 
Analiza ce urmează folosește pe cea alui Jesshope ((1980 a)-care a întreprins 
o analiză comprehensivă a implementării țransformatelor rapide pe masive 
de procesoare. Alte rezultate privind operaţiile de transfer şi transpuneri 
pe masive de procesoare sint prezentate în lucrările Jesshope (1980 b, c). 
În plus, Nassimi și Sahni (1980) au abordat implementarea topologiilor 
amestecului perfect și inversarea biţilor. i 
; Să considerăm un masiy de procesoare cu P procesoare, aranjate 
ca un masiv cartezian k dimensional, cu Q procesoare pe fiecare direcție 3 


P= Q | (5.103 a) 


şi, conform practicii curente, vom lua Q o putere a lui 2. 
Q=2%,q=1,2,... (5.103 b) 


Fiecare procesor accesează memoria sa proprie și cea a vecinilori mediaţi 
după fiecare direcție. Observăm, în particular, că nu există conexiuni 
după direcţii diagonale. Pentru q > 2 această topologie implică 2k conexiuni 
la fiecare procesor şi kP căi de date pentru întregul masiv, dacă presupunem 
că o cale este bidirecțională. Pentru q = 1 numerele de mai sus se înjumă- 
tăţesc. La marginile masivului procesoarele sint legate în sens periodic 
după fiecare direcţie. Dacă 1 este direcţia şi i, coordonata după direcţial, 
periodicitatea se referă la faptul că toate coordonatele se interpretează 
mod. Q (mod este prescurtarea pentru modulo), deci, 


0 <i <Q—1, l1=1, 2,...„K (5.104 a) 


iar conectivitatea vecinătății proxime înseamnă că procesoarele sint co- 
nec tate dacă coordonatele lor diferă prin + 1 numai după o singură direpție. 

Dorim să folosim acest masiv k dimensional pentru memorarea unui 
masiv uni-dimensional ($, i = 1,...,n) de date ce urmează să fie trans- | 
ferate. Pentru a evita complicații vom presupune că numărul procesoarelor 
este egal cu cel al datelor. Numerotind secvențial procesoarele după prima, 
a doua, ..., a k-a direcţie, stabilim corespondenţa 


i în tQ ti Qp n p iQ! 15.104 b) 
jar conectivitatea vecinătății proxime înseamnă că procesorul i este 
legat la : 

(i + 1) mod Q, (i + Q)mod Q2,...,(i + Q*-1) modQk (5.104 c) 
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În această clasă intră calculatoarele : 

(a) ILLIAC IV P = 64, k = 2, Q = 8, q = 3 şi procesorul i se conectează 
cu (i + 1,i +8) mod 64. Observăm că deşi conexiunile interne sint bi- 
dimensionale, conexiunile la margine transformă masivul într-o structură 
periodică uni-dimensională. Din această cauză maşina nu face parte strict 
din această clasă ; 

(b) ICL DAP P = 4096, k = 2, Q = 64, q = 6 şi procesorul i se conec- 
tează cu (i + 1) mod 64, (i + 64) mod 409 ; 

(c) HYPERCUBE (binar) P = 16, k = 4, Q = 2, q = 1 și procesorul i 
se conectează cu (i+ 1) mod 2, (i + 2) mod 4, (i c 4) mod 8, (i + 8) 
mòd 16. Se înțelege că asigurarea a kP căi de date limitează dimensiona- 
litatea masivelor reale la 2 cînd numărul procesoarelor este mare. Cel mai 
înalt grad de conectivitate îl are Hipercubul (Millard 1975) care are Q = 
= 2, 3 sau 4 şi k = 4. Calculatoarele ce nu intră în clasa de mai sus sint 
cele care asigură conexiuni pe diagonale, cum este CLIP de la University 
College din Londra (Duff 1978, 1980 a, 1980 b) care asigură conexiuni pe 
-$ direcții într-un masiv bi-direcțional. Definiţia noastră permite conexiuni 
numai la cele mai apropiate 4 procesoare. ; 

Operațiile de transfer au loc, în cazul algoritmului PARAFT, numai 
în bucla DO 20 din fig. 5.16. O reordonare parțială se desfăşoară la fiecare 
nivel. În prima şi a treia instrucțiune, valorile lui F separate prin N2L1 = 

= n/2!1 se deplasează petru a se aranja sub fiecare alta. O deplasare şi 

inversare similară au loc în a doua şi a patra instrucţiune. Dacă luăm algo-- 
ritmul Cooley-Tukey fără reordonare, algoritmul PARAFT poate fi sim- 
plificat şi reformulat astfel : 

Pentru 1 = 0, 1, ...,log,(n)—1 execută (5.105 a) 

(a) Deconectează grupele pare de n/2™! procesoare şi înmulţeşte cu 
an masiv memorat anterior de factori de fază. 

(b) Transferă toate datele n/2™*} noduri prin reţeaua liniară modulo 
2n/2!+1 gi memorează într-o zonă tampon de lucru. Dacă rețeaua nu 
posedă conexiuni ciclice modulo 2n/2™!, atunci trebuie executat acest pas 
în doi paşi cu mascare, deplasînd grupele impare şi pare de n/2!+! elemente 
în direcții opuse. 

(c) Deconectează grupele impare de n/2!+! procesoare şi schimbă sem- 
nul spaţiului de lucru. 

(d) Adună spaţiul de lucru la masivul de date. 

Sfirşit. A 

Sub această formă numărul operaţiilor de transfer este 


n/2, n/4, n/8, ..., 4,2,1 (5.105 b) 
“corespunzător valorilor'lui 1 de la 0 la log, (n)—1. Dacă cele P procesoare 


formează un masiv liniar (k = 1) atunci numărul total de operaţii de trans- 
der este 


au = ra(2a +241) (5.106 a) 
e -e 5.106 b 
= (5.106 b) 
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Primul termen al ecuaţiei (5.106 a) ia în considerare faptul că, pentru 
1 = 0, periodicitatea masivului permite execuţia transferului cu o singură 
deplasare la stinga sau dreapta cu n/2 poziţii. Factorul 2 al celui de-al 
doilea termen ia în considerare că în cadrul pasului (b), grupele pare şi 
impare se deplasează în urma execuţiei unor operaţii separate. 

Dacă masivul este multidiomensional şi, așa cum am presupus, datele 
umplu exact masivul de procesoare, atunci prima deplasare relativă a 
datelor cu n/2 elemente vectoriale poate fi executată cu un transfer de 
Q/2 după dimensiunea k, a doua deplasare de n/4 cu un transfer de Q/4 
după dimensiunea k. Se pot continua transferurile succesive cu jumătate 
din valoarea anterioară, după direcţia k pînă se atinge unitatea. Pentru a 
reduce la jumătate aceste operaţii trebuie să realizăm transferul acum după 
dimensiunea, (k—1) cu Q/2 pînă ce se atinge unitatea. În fig. 5.20 se pre- 
zintă un exemplu pentru un masiv de 16 x 16 procesoare. Evident, procesul 
de mai sus solicită transferuri diferite de ecuaţia (5.106 a), unde Q va 
înlocui n pentru fiecare dimensiune. Numărul total de transferuri de numere 
complexe este în cazul conexiunii k-dimensionale 


RE = k (3Q/2—2) (5.107 a) 


Numărul minim de astfel de operaţii de transfer se obține pentru Q = 2, 
adică pentru un hipercub binar, în care caz , f 


R® = k = logp = logn (5.107 b) 
Numărul operațiilor de transfer complexe solicitate de alte calculatoare 
sint, folosind ecuția (5.107 a): 


(a) "ILLIAC IV,,; («indică o maşină ipotetică asemănătoare cu ILLIAC 
IV, care este caracterizată de o conexiune bi-dimensională periodică) 


P=n=64, Q=8,k=2 

R2 = 20 = 3,3 log n (5.108 a} 
(b) ICL DAP j 

P =n = 4096, Q= 64 k=2 

R® = 188 = 15,7 logm (5.108 b) 


sau deoarece k = (log2n)/q pentru 
situația n=P 'a 


„Ri = SQ — 2 log,n (5.108 ¢) 
| q 


Fig. 5.20 Mărimea şi direcția transfe- 

rurilor necesare pentru evaluarea unei . Ş Ni 
transformate a 24 = 256 valori pe un Numărul operațiilor aritmetice para- 
masiv 16x16, 1 = 0, 1, ...,7 este varia- Jele reale necesare după execuția de- 


bila de control a buclei în expresia (5.105 mpe : 
a). Nivelul transtormatei parțiale calcu- plasărilor complexe anterioare este de 


lată după deplasare este 1+1. Slog.n [vezi ecuaţia (5.98)]. Prin urma- 
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de, dacă presupunem că o operaţie paralelă de transfer este de y ori 
mai rapidă decit o operaţie aritmetică paralelă, pentru n = P 


în _ timp consumat pentru operații de transfer 2(3Q/2 — 


2) 
(5.109 a) 
ta timp consumat pentru operații aritmetice 8&yq 


unde factorul 2 de la numărător semnifică că fiecare transfer complex în 
ecuația (5.108 c) reprezintă deplasarea a două numere reale. Pentru calcu- 
latoarele pe care le-am ales, se obține aproximativ. : 


(a) 'ILLIAC IV” 


y = 2, tata = 42% (5.109 b) 
(b) ICL DAP | 

y = 20, tafta = 19% (5.109 c) 
(e) HYPERCUBE : 

y = 10, tafta = 2,5% (5.109 d) 


Se observă deci că întirzierile provocate de operaţiile de transfer 
deși semnificative, nu domină calculul transformatelor Fourier complexe 
în cazul masivelor de procesoare considerate şi pot fi ignorate într-o primă 
estimare a performanţei algoritmilor transformatelor rapide. În $ 5.5.6 
vom vedea, că, pentru calculul transformatelor teoretice numerice pe anu- 
mite tipuri de masive de procesoare, situația se inversează. . 

În general, transferurile vor domina operațiile aritmetice cind ta/ 
lta > 1 sau, reamintind că q = log,Q, cînd 


3Q/2—2 > 4y log, Q (5.110 a) 
sau pentru Q mare, cind l l 
Q/log.Q > 2,67 y (5.110 b) 


-Atunci obținem corespunzător celei mai apropiate puteri a lui 2 : 
32 dacă y = 2 


64 dacă y = 4 
Q > (5.110 c) 
256 dacă y = 10 


512 dacă y = 20 


Acest rezultat, prezentat în fig. 5.21 este independent de dimensiona- 
ditatea masivului de procesoare, şi stabilește că este improbabil să fie mai 
avantajos, datorită întirzierilor provocate de transferuri, să se construiască 
masive cu o dimensiune liniară mai mare decit cîteva sute, funcţie de va- 
doarea lui y. Într-adevăr, cu cît sînt mai complexe procesoarele şi deci 
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mai mică valoarea lui y, cu atit trebuie menținute mài mici masivele, pentru 
a preveni ca transferurile să domine timpul de execuţie. Și pentru calcula- 
toarele organizate binar, ca ICL DAP, y va avea valori mici, dacă sînt 
folosite în calcule aritmetice cu întregi reprezentaţi de cuvinte scurte (să 
spunem cuvinte de 8 biţi cînd y 2 2), cum este cazul în prelucrarea ima- 
ginilor (vezi $ 5.5.6). l 

Rezultatul anterior este important deoarece apariția tehnologiei de 
integrare pe scară foarte mare cu 10000, sau mai multe- elemente logice pe 
cip, face posibilă producerea unor masive foarte mari. Astfel de masive 
sînt atractive din punctul de vedere al costului şi pot furniza, la prima 
vedere, performanțe înalte. Totodată, acest rezultat arată că, atunci 
cînd folosim algoritmii actuali, trebuie să fim conștienți de limitările 
ce intervin cînd dimensiunile liniare devin mari. Deși am prezentat în 
mod specific problema transferului în cazul algoritmului transformatei 
Fourier, operaţii de transfer similare intervin în cadrul multor algoritmi 
paraleli — de exemplu, algoritmul paralel pentru evaluarea, recurenţei 
de ordinul întîi prezentat în $ 5.2.2. De aceea, rezultatul trebuie considerat 
destul» de general. 

Pentru a ne concentra asupra aspectelor esențiale, s-a presupus în 
cadrul analizei anterioare că se execută o singură transformată uni-dimen- 
sională de lungime egală cu numărul 
procesoarelor disponibile. Pentru o ana- 
liză a întirzierilor de transfer pentru 
transformate multidimensionale multi- 

le, care nu se potrivesc în mod necesar 
cu dimensiunea masivului de procesoa.- 
re, recomandăm lucrările lui Jesshope 
(1980 a, b). 


10000 + 


5.5.6 Transformatele teoretice | 
numerice i; 


Dominante 


'Transformatele teoretice numerice, 
aritmetice 


în particular transformata numerică %;. 


Fermat, au aplicaţii importante în pre- +. 

lucrarea imaginilor, ca şi în rezolvarea  * 

ecuaţiilor cu derivate parţiale (vezi 10 ai S 
$ 5.6.2), aşa cum au arătat Eastwood şi A 


Jesshope (1977). Aceste transformate au 


fost folosite de asemenea cu folos în 
prelucrarea numerică a semnalelor de 
către Pollard (1971), Rader (1972) şi 
Agarwal şi Burrus (1974, 1975). Ele 
joacă un rol similar cu cel al transfor- 
matei Fourier cînd se execută operaţii 
aritmetice modulo F, = 2% + 1, al t-lea 
număr Fermat, iar valorile funcționale 
sînt limitate la întregii 0, 1, ..., F.—1 
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Fig. 5.21 Dimensiunea liniară Qa unui 
masiv de procesoare, peste care întirzi- 
erile datorate transferurilor depăşesc 
timpul de execuţie a operaţiilor aritme- 
tice în FFT, reprezentată ca o funcție 
de y, raportul dintre timpul de execuţie a 
unei operaţii aritmetice şi cel necesar: 
pentru o operaţie de transfer. Se arată 
curbele corespunzătoare calculului trans- 
formatei Fourier în aritmetica complexă 
și transformata .Rader în aritmetica 
întreagă modulo. 


(tehnic, un inel de întregi). În acest caz se pot defini transtormatele te- 
oretice numerice ca : 


n—1 i - 
3, = 5 a™x; (mod FE.) (5.111 a) 
j=0 
care are inversa 
=l 
x; = a § că, (mod F,) (5.111 b) 
` k=0 


unde « este n—a rădăcină a unității (modulo F,). Astfel: 
d =l i (5.111 c) 


Comparind ecuaţiile (5.111) cu definiţia transformatei Fourier finite 
(5.73) şi (5.74), observăm că a are aceleași proprietăţi în inelul de valori 
întregi ca şi œ în domeniul numerelor complexe. În consecință, toţi algo- 
ritmii rapizi dezvoltați pentru transformata Fourier în $ 5.5.2 la $5.5.5 
pot fi aplicaţi la fel de bine calculului transformatelor teoretice numerice, 
cu observaţia că operaţiile aritmetice se execută modulo F.. Să notăm, 
totuşi, că de obicei se asociază factorul de scară n-1 la transformata, inversă 
(5.111 b). Această convenţie este inversă celei folosite la transformata 
Fourier, unde factorul era asociat cu transformata directă (5.71 a). 

Funcţiile întregi «"! și a-*'! sînt ortogonale, a şi funcţiile, e! lucru 
ce poate fi demonstrat uşor : i 


n—1 a-l EI 
F atig- = £ aur) (5.112 a) 


j=0 j=0 


Sumind seriile geometrice şi folosind faptul că a" = 1, obținem : 


2—1 a-m — 1 
D a" = — = 0, dacă k # k’ (5.112 b) 
j=0 a= — 


Revenind la definiția (5.112 a) obținem imediat 


n-i n=l n=l 
Z aa"! = Şi (92 = $ 1=n, dacă k=k' (51120) 
j=0 


j=0 ij=0 


Această proprietate este analogă relației de ortogonalitate (5.72 b). 
Pentru cazul t = 2, s-au reprezentat funcțiile ai! în fig. 5.22. 

Tipurile cele mai folositoare de transformate numerice Fermat inter- 
vin cînd a este o putere a lui 2, cînd sînt denumite transformatele Rader 
(RT) (1972). În acest caz se pot executa toate înmulţirile cu puteri ale 
lui æ din ecuaţia (5.111) prin deplasări, ceea ce rezultă în programe de 
calculator foarte rapide. Mai există o relaţie între numărul cifrelor binare 
(biţilor) folosiți pentru reprezentarea numerelor şi lungimea n a transfor- 


28—c. 702 433 


matei. Întregii în domeniul 0, 1, ..., F,—1 = 2°, undè b = 2t, necesită 
pentru reprezentare b + 1 biţi, deoarece numărul 2» = —imod F, (un 
unu urmat de b zerouri) este inclus în domeniu. Toate celelalte numere 
din domeniu pot fi reprezentate cu b biţi. 


ta) lb! 


=17 
LEA 


Fig. 5.22 Funcţiile ottauiile discrete g“! folosite în titi te teoretică numerică Rader 

(a = 2) pentru t = 2. Valorile funcţionale sînt în domeniul 0, 1, ..., F — 1 = 16 şi sînt repre- 

zentate de 5 biţi. Lungimea transformatei este n = 8 (n! = 15), şi k= 0,1, ...,n—1=7. Func- 

Hile pentru k > 4 sint imaginea în oglindă față de linia verticală j= 4a funcției desenată pentru 
8—k(x!) = a(n-E)(n-i)). — 


Dacă « = 2 lungimea transformatei este, în general 
n = 2 = 2 (5.113 a) 


şi reciproca, solicitată în ecuația (5.111 b) este 
l n- = F, — 2-6) (5.113 b) 


Dacă se numerotează cifrele binare de la 0 la b, începînd cu bitul cel mai 
puțin semnificativ, n~t are „1” în biții de pe pozițiile 0 și dela b—i la 
b—1—t inclusiv. Pentru a demonstra ecuația (5.113 b) se calculează 
nni = 24{F, — 2b-tt+D) = 2*1F, — 2è şi, deoarece 2 = F, — 1, 


n-n-l = 2F, — (F; — 1) 
=(2—1)F, + 1=1 modF, . (5.113 c) 
Iată cîteva cazuri particulare de interes : ` 
a = 2, t = 3, b = 8, biți = 9, n = 16, n~ =28 4 1—23 (5.114 ə) 
a = 2, t = 4, b = 16, biți = 17, n = 32, n7! = 2841—21 (5.114 b) 
a = 2, t = 5, b = 32, biți = 33,n = 64, n7! = 23 + 1 — 23 (51140) 


a = 2, t = 6, b = 64, biți = 65, n = 128, n-! = 24 1—25 (5.114 d) 
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Transformata teoretică numerică, poate fi aplicată variabilelor reale, 
dacă acestea sint aduse la început în domeniul întreg permis, şi apoi dis- 
cretizate la valorile întregi cele mai apropiate. În acest caz, eroarea de 
discretizare este de aproximativ 2-?, iar dacă se dorește o precizie mai mare 
se poate mări b. Apoi, dacă lungimea transformatei este prea mare, poate 
fi înjumătăţită prin ridicarea lui a la pătrat, atunci a = 4, n =bşin-1= 
= F, — 2*-*t, De exemplu, 


a = 4, t = 6, b = 64, biți = 65, n = 64, n = 2% + 1—25 (5.115 a) 
şi prin repetarea procesului 
a = 16, t = 6, b'=— 64, biţi = 65, n = 32, n-~! = 2%4+1—2% (5.115 b) 


În acest mod se poate alege o precizie b, lungimea transformatei n ṣi rădă- 
cina unităţii « adecvate pentru cele mai multe circumstanțe. 


Utilitatea transtormatei numerice Fermat depinde în mod critic de 
eficiența, cu care se pot executa operaţiile aritmetice modulo F,. Multe 
calculatoare execută, operaţii aritmetice în complement faţă de 2 care, 
pentru b biţi, este modulo 2° = F,—1. Pentru a transforma aceasta la 
modulo F,, trebuie scăzut 1 din suma a două numere, atunci cînd se' detec- 
tează un transport de la bitul cel mai semnificativ, exceptind cazul cind 
biții 0 la b—1 sînt toți 0. Acest ultim caz reprezintă un rezultat valid şi 
reprezintă 2% sau —1 mod F,. Dacă calculatorul foloseşte numai b biți 
pentru reprezentarea întregilor, se poate folosi o altă metodă, ce constă în. 
asocierea unei variabile logice auxiliare la fiecare număr. În mod similar 
trebuie adunat 1 la complementul faţă de 2 negativ al unui număr, sau la 
diferenţa a două numere dacă rezultatul este negativ. Înmulțirea cu un 
număr oarecare modulo F, se execută prin scăderea celor b biţi de rang 
superior ai produsului reprezentat cu 2 b biţi din biții b de rang inferior. 
Observăm că F, = 2?+1 conţine numai 2 biți, un unu în poziția bitului 
cel mai puțin semnificativ al celor b biţi de rang inferior şi un unu în 
poziţia bitului cel mai puţin semnificativ al celor b biţi de rang superior. 
În acest mod, operaţia de mai sus este aceeaşi cu normalizarea produsului 
la domeniul întreg permis prin scăderea lui F, pînă ce toţi biții de rang 
superior sînt 0. Trebuie din nou menţionat cazul particular cînd intervine 
2b şi pentru înmulțire cu 2. Înmulțirea cu puteri ale lui « se execută prin 
deplasarea urmată de normalizare. 

Este clar că aritmetica modulo F, necesită mai multe teste și cazuri 
particulare şi este improbabil că transformatele teoretice numerice vor 
avea, avantaje de viteză asupra transformatei Fourier pe calculatoare care 
execută hardware operaţiile aritmetice în virgulă mobilă. Situaţia este 
în mod radical diferită în cazul calculatoarelor seriale pe bit, ca ICL DAP 
şi Goodyear STARAN, deoarece neexistind operatori hardware în virgulă, 
mobilă, rutinele aritmetice speciale pot fi microprogramate la nivelul bitu- 
lui pentru operaţiile aritmetice modulo. În particular, deplasările aparent 
necesare pentru înmulţirea cu « pot fi evitațe prin adunarea biţilor cores- 
punzători din memorie, iar orice înmulţire 'cu «“ nu durează mai mult 
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decit 0 singură scădere necesară pentru normalizare. În tabelul 5.1 se pre- 
zintă comparaţia între operaţiile modulo F; și în virgulă mobilă pentru 
ICL DAP. Este clar că operațiile modulo sint aproximativ de 10 ori mai 
rapide decit cele în virgulă mobilă. 


Tabelul 5.1 Comparaţia între operaţiile mo- Dacă se calculează transformata 
A ea +1 A în virgulă pIa p Rader cu aceeaşi tehnică folosită de 
I . Timpul în us pentru rezultate i 
într-un masiy de 64x 64 procesoare metoda PARAFT pentru transforma- 

ta Fourier (vezi $ 5.5.4), pentru 
fiecare nivel din cele log „n ale algorit- 


Operaţie | Modulo F, a i mului se vor executa o adunare para- 

lelă, și o înmulţire paralelă. Numărul 

+ 36 150 total de operaţii aritmetice modulo 

a 30 150 F, fiecare cu paralelism n, pentru 

Route t o masivul k-dimensional de n= Q pro- 
_____ cesore din $ 5.5.5. este 

A = 2 log, n = 2kq (5.116 a) 


Numărul de operaţii de transfer este acelaşi cu cel al algoritmului PA- 
RAFT, deci 


R = k(3Q/2—2) (5.116 b) 


- 


și raportul dintre timpul consumat pentru transferuri şi cel pentru operaţii 
“aritmetice este, pentru transformata Rader 


3Qp —2 


2yq 


unde y este raportul între timpul consumat pentru o operație modulo 
F, şi cel pentru o operaţie de transfer unitară. Referindu-ne la tabelul 5.1 
vedem; că y = 3 pentru 33 biţi şi t = 5 pentru ICL DAP (k = 2, Q = 64, 
q = 6), ce conduce la 5 


R =188, A=24, RJA =7,8 (5.117 a) 


ta/ta = (5.116 c) 


şi | 

trita = 261% (5.117 b) 
Deci transferurile domină timpul de calcul aritmetic în cazul caleu- 
lului transformatei Rader pe ICL DAP sau mașini similare. 


Timpul consumat pentru transferuri va egala sau depăşi timpul con- 
sumat pentru operații aritmetice cind | 


l 3Q/2—2 > 2yq (5.118 a) 
sau pentru Q cînd r ; 
Q/log2Q > 1,33 y (5.118 b) 
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În fig. 5.21 se prezintă, curbe pentru egalitate şi regiunile planului 
Q—y unde domină transferurile sau operaţiile aritmetice. Se poate vedea 
«că pentru calculul eficient al transformatei Rader dimensiunile liniare ale 
masivului de procesoare trebuie menținute cît mai mici posibil. Deoarece 
este probabil ca y să fie mai mic decît 4 pentru operaţiile modulo, dimen- 
siuni liniare mai mari decît 32 vor conduce la algoritmi dominați de timpul 
consumat pentru rearanjarea datelor în memorie mai degrabă decit de 
cel pentru execuţia unor operaţii utile asupra datelor. 

Analiza, de mai sus s-a bazat pe o transformată egală cu dimensiunea, 
masivului de procesoare. În cazul rezolvării unei ecuații diferenţiale par- 
tiale tri-dimensională este probabil că transformata este mult mai mare 
decit dimensiunea masivului în care caz influenţa transferurilor scade 
dramatic. De exemplu procentul 261%, din ecuaţia (5.117 b) pentru o 
transformată 64 x 64, devine numai 25 % pentru o transformată 64 x 64 X 64 
pe ICL DAP 64x64 (Jesshupe 1980 a). l 

Cu toate că transferurile pot domina calculele aritmetice, performanța 
de ansamblu a transformatei Rader depäşeşte cu mult pe cea a transfor- 
matei Fourier pe mașini ca ICL DAP. Dacă comparăm necesarul de ope- 
Tații aritmetice pentru a transforma în valori întregi prin transformata 
Rader cu cel impus de transformata Fourier a n valori reale (sau n/2 
valori complexe), găsim 2 logn operații paralele în comparație cu 4log,n. 
În plus am văzut în tabelul 5.1 că fiecare operație modulo folosită de trans- 
formata Rader este de aproximativ 10 ori mai rapidă decit aceeași opera- 
ție în virgulä mobilă necesară pentru transformata Fourier. Se poate anti- 
<ipa, pe această bază, un avantaj de viteză de aproximativ 20 de ori pentru 
transformata Rader. Valorile reale vor fi mai mici decit acest maximum 
«datorită întirzierilor de transfer care vor fi aceleași pentru ambele transfor- 
mate. De exemplu, pentru o transformată tridimensională cu 32 x32 x16 
valori executată pe ICL DAP 32 x 32, transformata Rader durează 50 ms, 
iar Fourier 700 ms, folosindu-se acelaşi algoritm rapid în baza 2 (East- 
wood şi Jesshope 1977). Raportul de 14 în favoarea transformatei Rader 
“este consistent cu estimările anterioare. 


5.6 Ecuaţii diferenţiale parţiale 


Pentru a rezolva ecuaţii diferenţiale parțiale (PED) pe calculatoare 
“paralele, putem folosi rezultatele obţinute mai înainte în acest capitol la 
«rezolvarea sistemelor tridiagonale (vezi $ 5.4) şi la calculul transformatelor 
(vezi $ 5.5.). Aproape toate tehnicile numerice de rezolvare a PED, care 
s-au folosit începînd cu 1950 pe calculatoare seriale, implică rezolvarea 
repetată a unor sisteme tridiagonale sau transformarea repetată a unor 
mulţimi independente de date. Astfel de metode sînt potrivite pentru im- 
plementarea, eficienţă pe calculatoare paralele deoarece sistemele sau trans- 
formatele independente pot fi calculate în paralel. Astfel, problema nu 
constă în introducerea paralelismului într-o metodă secvenţială cunoscută, 
aşa cum a fost cazul în secţiunile anterioare ale capitolului, ci mai degrabă 
în potrivirea paralelismului natural al calculatorului la paralelismul exis- 
tent al algoritmului. De exemplu, algoritmul pentru rezolvarea unei pro- 
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bleme tri-dimensionale pe o structură n xn xn poate fi exprimată în ter- 
menii unor operaţii cu paralelism n, n? sau n’. Alegerea tehnicii celei mat 
adecvate pentru un anumit calculator implică identificarea căruia dintre 
aceste trei niveluri îi corespunde cel mai bine paralelismul natural al calcu- 
latorului. ~ 

Întii ($ 5.6.1) descriem metodele iterative obișnuite (sau metodele cu 
relaxare) în două, dimensiuni deoarece ele se pot aplica la rezolvarea celei 
mai generale PED liniare cu coeficienți oarecari. Facem observaţia impor- 
tantă că metoda ajustării simultane a tuturor punctelor (metoda -Jacobi) 
care are paralelismul maxim n? nu poate fi utilizată datorită convergenţei 
extrem de lente. Acesta este un avertisment că în căutarea metodelor cu 
paralelism maxim, nu trebuie ignorate rezultatele de mult timp cunoscute 
ale analizei numerice asupra convergenţei , așa cum apar de exemplu în 
lucrările lui Varga (1962) sau Forsythe şi Wasow (1960). Metoda supra- 
relaxărilor succesive cu ordonare pară/impară și accelerare Cebişev sînt 
recomandate datorită proprietăţilor superioare de convergență, deşi para- 
lelismul este înjumătăţit. Această metodă, poate fi aplicată prin puncte 
(SOR) sau prin linii (SLOR) şi este interesant că noi am găsit că prima 
metodă este cea mai avantajoasă pe mașini ca ICL DAP, iar ultima pe 
maşini precum CRAY X-MP. Totuşi, Hunt (1979) a arătat că poate fi 
aplicat în paralel prin operarea cu linii diagonale alternative în maniera 
unui pipeline. Paralelismul se apropie de n?/2 dacă numărul de iterații 
este mult mai mare decît n. Grosch (1979) a studiat aplicarea metodelor 
iterative multi-rețea la calculatoare paralele. O altă metodă iterativă bună 
pe care o discutăm este metoda implicită a alternării direcției (ADI). 
Alte metode sînt discutate de Vajtersic (1984), iar implementări vectoriale 
de Schonauer (1987). 

Rezolvarea PED simple cu coeficienți constanți (de exemplu ecuaţia 
Poisson Y2% = p, în regiuni simple (ca pătrate sau dreptunghiuri) cu con- 
diții la margine simple (valoare dată, unghi sau periodicitate), are aplicații 
importante în fizică şi inginerie. Sînt disponibile, în special, metode di- 
recte rapide (ne-iterative), bazate pe FFT, pentru rezolvarea acestei clase 
de probleme, pe care le prezentăm în § 5.6.2. Viteza acestor metode face 
"posibilă simularea comportării în timp a stelelor în galaxii, electronilor 
în dispozitivele semiconductoare şi a atomilor în solide sau lichide (vezi 
Hockney şi Eastwood 1981). Din nou, algoritmii care au fost dezvoltați 
la, început pentru calculatoare seriale, sînt inerent paraleli și pot fi im- 
plementajţi eficient pe calculatoare paralele, färă modificări. Astfel de 


metode au fost extinse de Vajtersic (1982) la ecuaţia biarmonică și imple- 
mentate pe calculatrorul EGPA ($ 1.1.8). 
Primele două subcapitole sînt scrise în termenii unor probleme bi- 


dimensionale atit pentru o prezentare ușoară cit şi pentru faptul că aceste 
probleme sînt adecvate caracteristicilor calculatoarelor curente, c1988 şi 
deci puse cel mai frecvent. Viteza suplimentară asociată cu noile calcula- 
toare paralele face să fie posibilă rezolvarea problemelor tri-dimensionale 
cu o rezoluţie rezonabilă (să zicem cu caroiaj 64 la puterea 3). De aceea 
vom trata în ultima parte ($ 5.6.3) cîteva din strategiile alternative po- 
sibile pentru rezolvarea unor astfel de probleme tri-dimensionale. 


9 . 
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5.6.1 Metode iterative : SOR, SLOR, ADI 


“Cea mai generală PED liniară de ordinul 2 în două variabile poate 
fi exprimată cu: 


MD Do R AA 


29 
+ D(x, y) pt E(x, y) O = (X, y) 


unde coeficienții A, B, C, D, E sînt funcții arbitrare dependente de poziție. 
Această ecuație conține principalele ecuații ale fizicii matematice şi ingi- 
neriei (ecuaţiile Helmholtz, Poisson, Laplace, Schrodinger şi de difuzie) 
în sistem de coordonate cunoscute (cartezian (x, y) polar (r, 0), cilindrice 
(r, z), sferic asimetric (r, 0) și suprafața sferică (0, 0)). Dacă se diferențiază 
ecuația de mai sus pe un caroiaj de puncte nxn, folosind procedurile 
standard (vezi de exemplu, Forsythe şi Wason 1960), se obține un sistem 
de ecuații algebrice, fiecare legind valorile variabilelor de 5 puncte vecine 
de pe caroiaj. 


apa Dp.a-1 F PoaPpau + Cpq®r-1a F Apa Dora T ep.4Dp.a = fpa (5.119 b) 


unde indicii întregi p, q = 1, ..., n etichetează punctele caroiajului 
după direcțiile x, respectiv y. Coeficienții a, b, c, d, e variază de la un punct 
la altul şi sint legați de funcțiile A, B, C, D, 'B Şi "distanţele dintre puncte 
într-un mod complicat, produs prin aproximarea folosită pentru diferenţe. 
Variabila din membrul drept fp este o combinaţie liniară a valorilor 
Pa; p În punctul (p, q). În cazul cel mai simplu reprezintă valoarea lui 
Pa; n în punctul (p, q). 

Procedurile iterative sint lansate cu valorile reprezentative pentru 
Op în toate punctele caroiajului, și se folosește ecuaţia (5.119 b) ca bază 
pentru calculul valorilor îmbunătăţite. Procesul se repetă Şi, dacă are 
succes, valorile lui O converg spre soluţia ecuaţiei (5.119 b) în toate punc- 
tele. În cazul procedurii celei mai simple, valorile lui O pentru toate punc- 
tele caroiajului sint modificate simultan la valorile pe care le-ar avea prin 
ecuaţia (5.119 b) dacă se presupune că toate valorile vecine ale lui Ọ sînt 
corecte, adică este înlocuit pentru fiecare punct de valoarea nouă : 


0%, er foa ii apa Pp.a-1 TT Pra Ppar B Copa Po-1a astă Apa Porua (5.120) 
i Epa 

Deoarece înlocuirea trebuie să aibă loc simultan, toate valorile lui O sînt 

valori „vechi”, din iteraţia anterioară, în timp ce cele din menina sting 

sint noile” valori, probabil îmbunătăţite. 

Deoarece metoda de mai sus a înlocuirii simultane a fost propusă prima, 
oară de către Jacobi (1845), este adeseori denumită metoda Jacobi. Ea 
este ideală pentru implementare pe calculatoare paralele. Modificarea 
simultană înseamnă că ecuaţia (5.120) poate fi evaluată în paralel pentru 
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toate punctele caroiajului cu paralelismul maxim posibil de n?. De obicei 
n = 32 la 256, astfel că paralelismul variază de la aproximativ 1000 la 
aproximativ 64000. Se obţin astfel vectori suficient de lungi pentru o 
procesare eficientă pe calculatoare pipeline.. Pe de altă parte, pentru 
masive de procesoare cum este ICL DAP, se poate alege probabil caroiajut 
pentru a corespunde exact masivului de procesoare, sau să fie un multiplu 
al acestuia, facilitind astfel utilizarea calculatorului cu toate procesoarele 
active (de exemplu, rezolvarea unei probleme 64x64 pe un ICL DAP 
64 x 64). Mai mult, toate variabilele folosite în ecuația (5.120) aparţin unor 
procesoare vecine în masiv gi pot fi transmise fără a folosi operaţii de 
transfer. De fapt, ICL DAP a fost proiectat în mod evident pentru acest 
tip de aplicaţie. 

Faptul că se poate implementa eficient pe calculatoarele paralele 
numai o singură iterație a metodei de înlocuire simultană, nu înseamnă 
în mod necesar că este o metodă bună de folosit, deoarece trebuie să luăm 
de asemenea în considerare numărul necesar de iterații pentru a obține 
o convergenţă satisfăcătoare. Rata convergenţei nu se poate afla uşor 
pentru ecuația generală (5.119 b) dar sînt bine cunoscute rezultate ana- 
litice pentru cazul mai simplu al ecuației Poisson în pătrat cu valori zero 
la, margine (condiţiile Dirichlet). Aceasta corespunde la considerarea valo- 
rilor apq = Popa = Cha = Apg = Și ep = —4 pentru toate punctele, 
ceea, ce mai este cunoscut ca, problema, "modelului. Subliniem că metodele 
iterative nu trebuie folosite pentru rezolvarea problemei modelului, 
deoarece metodele de transformare directă din $ 5.6.2 sint de cel puţin 
10 ori mai rapide. Folosim aici problema modelului numai pentru a indica 
rata convergenţei ce se poate obține pentru metodele iterative folosite la 
rezolvarea ecuaţiei diferențiale generale (5.119 b), caz în care nu se pot 
folosi metode de transformare rapidă. 

Se poate arăta (vezi de ex. Varga 1962) că, vor avea avantaje de 
viteză asupra transformatei Fourier pe calculatoare care execută bard- 
ware operaţiile; pentru metoda Jacobi : 


A; = cos(z/n) = 1 — 2. v? jn? . (5.121 a) 


Factorul de convergenţă, à, poate îi folosit pentru calculul lvi t%, numărul 
de iterații necesar pentru a reduce eroarea printr-un factor de 10-? 


fa zu 2 
(pe E e a regi pe A (5.121 by 
logio à; T? log € 2 


Astfel, o reducere modestă a erorii de 10-? pentru un caroiaj obișnuit 
de 128 x128 ar impune un număr de aproximativ 24000 iterații. O astfel 
de convergență lentă face metoda Jacobi ineficientă pentru probleme prac- 
tice, deşi este deosebit de adecvată implementării pe calculatoare 
paralele. 


Metoda iterativă cea mai utilizată pe calculatoare seriale este metoda, 
suprarelaxărilor succesive prin puncte, sau SOR. În cadrul acestei metode 
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se foloseşte o medie ponderată a valorilor „vechi” şi stelate pentru calculul 
valorilor „noi” 


Dra = 00pa + (1—0) ba (5.122 a) 


unde « este factorul de relaxare constant, de obicei în domeniul 1 <o <2, 
ales: pentru îmbunătăţirea, ratei convergenţei. Se poate arăta că, pentru 
problema modelului, cea mai bună rată a convergenţei se obţine cu : 


L 2 
iHi 


unde à = s-a, iar p este factorul de convergență a iterației Jacobi 
corespunzătoare. De aici, p = cos (z/n) pentru problema modelului. În 
mod obișnuit punctele caroiajului sînt prelucrate secvențial punct cu punct, 
sau linie cu linie, ca la citirea cuvintelor dintr-o carte sau tipărirea unei 
pagini de text. Îmbunătăţirea convergenţei se bazează pe faptul că noile 
valori le înlocuiesc pe cele vechi, imediat ce sint calculate ; de aici, valorile 
din membrul drept al ecuaţiei (5.120) folosite pentru calculul lui b*, 
sint o combinaţie între valorile vechi și noi iar ecuaţia (5.120) nu poate fi 
calculată pentru toate punctele în paralel în modul cum se realizează cu 
metoda Jacobi. Ar rezulta că metoda SOR, deşi are proprietăţi superioare 
de convergență este esențial o metodă secvenţială şi, deci, inadecvată 
implementării pe calculatoare paralele. Totuşi, Hunt (1979) a arătat cum 
poate îi folosit principiul pipelining macroscopic pentru implementarea 
SOR cu un paralelism maxim de n2/2. 

Din fericire se poate obţine o convergență îmbunătăţită a metodei 
SOR, pentru alte moduri de baleiere a caroiajului. Una din cele mai bune 
proceduri este ordonarea impar/par cu accelerare Cebișev: În cadrul ei, 
se îmaprt punctele caroiajului în două grupe, depinzind de valoarea 
impară sau pară a sumei p + q. În fig. 5.23 (a) punctele pare sînt încer- 
cuite, iar cele impare marcate cu x. Metoda constă în execuţia unor iterații 
în cursul cărora numai jumătate din puncte sînt ajustate (în mod alter- 
nativ punctele pare şi apoi impare) conform ecuaţiei (5.120) și (5.122). 

n plus, la fiecare iteraţie valoarea lui œ se modifică conform t 


Op 


(5.122 b) 


1 
ot? =1/ ( ie e) 


ott = 1) (1 — A pot) t = 5 1...,00 . (5.123a) 


unde exponentul t marchează numărul iterației. Se poate arăta că w 
tinde, pentru t mate, la limita 6% = w, factorul'de relaxare constant 
<e este folosit pe parcursul procedurii tradiționale SOR (5.122 b). Factorul 
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de convergenţă asimptotică este prin urmare aceiaşi pentru ambele- metode 
de formulare a SOR şi se calculează cu: 


AsoR = Op — 1=1— 2r]n (5.123 b) 


| | 


Fig. 5.23 Modelul de structurarea datelor în cadrul diverselor me- 

tode iterative: a) suprarelaxarea succesivăa punctelor (SOR); b) su- 

prar claxarea succesivă a liniilor (SLOR); c) și d) metoda de alternare 

imp licită a direcţiei (ADI). Metoda transformatei Fourier directă mul- 

tip lä (MFT) foloseşte aceeași structură cu ADI. Liniile alcăror sens 

est e marcat cu săgeată corespund fie unei transformate Fourier, fie unui 
b sistem tridiagonal, de ecuaţii. 


ia) 


Numărul de iterații pentru o reducere a erorii de 10-? este 


np np 

tr E x —> 5.123 e 

S 2n log. € 3 ( ) 
Concluzionăm, pe baza ecuaţiei (5.123 e) că o reducere a erorii de 10-32 
pentru un caroiaj 128 x 128 ar necesita aproximativ 128 iterații, în 
comparaţie cu 24000 pentru metoda Jacobi. Importanţa folosirii -unei 
metode iterative cu o convergenţă bună este evidentă. Se poate arăta de 
asemenea (vezi Varga 1962) că norma maximă a vectorului eroare des- 
creşte în cazul metodei SOR cu acceleraţie Cebişev și w variabil, în timp 
ce în etapele iniţiale ale metodei SOR tradiţionale cu e constant poate 
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şi, în 'mod frecvent, creşte (vezi Hockney 1970, fig. 7 şi 9). Deoarece me- 
toda SOR Cebişev nu necesită operaţii aritmetice suplimentare şi are 
proprietăți mai avantajoase de descreştere a erorii iniţiale, nu pare a 
exista nici un motiv pentru a nu o utiliza întotdeauna. 

Metoda SOR Cebișev are avantaje suplimentare în ce privește imple- 
mentarea pe calculatoarele paralele. Observăm din ecuaţia (5.120), că 
valorile marcate cu steluţă pentru un punct impar al reţelei depind numai 
de valorile vechi ale punctelor vecine pare, calculate în cursul ultimei 
iteraţii-jumătate. Astfel, toate punctele pare pot fi modificate în paralel, 
cu paralelism n2/2 în cursul unei iteraţii-jumătate si, similar, toate punctele 
impare în cursul următoarei iterații. Timpul necesar unei iterații complete 
pentru un calculator caracterizat de un n; este proporţional cu 


tı = 24 (D12 + n?/2) (5.124 a) 


deoarece ecuațiile (5.120) şi (5.122 a) impun execuția a 12 operații arit- 
metice pentru un punct (observăm că 1—w este precalculat și memorat 
ca o singură constantă). Metoda SOR poate fi implementată şi cu un 
paralelism de n/2 prin definirea unui vector format din cele n/2 valori 
pare (sau impare) ale unei linii a caroiajului, şi prelucrind secvențial cele 
n linii. Timpul necesar execuţiei unei iterații complete este proporțional cu 


ta = 24 n (Dap + n/2) i (5.124 b) 


O altă strategie pentru suprarelaxarea Cebişev este ilustrată în fig. 5.23 (b). 
Punctele formează mulțimi pare şi impare conform liniilor la care aparțin, 
aşa cum se indică cu linii continui sau întrerupte. Ecuația de modificare 
(5.120) se scrie pentru toate punctele unei linii, presupunînd că toate punc- 
tele din linia de deasupra şi cea de dedesupt sint corecte. Atunci, se calcu- 
lează valorile marcate cu steluță pentru o linie la un moment dat, cu 
P= l, Da seg i | 

Copa Pica T enha + do,a ana == fpa jr Apa Pp.q-1— Ppa Para (5.125) 
Ecuația (5.125) este un sistem tridiagonal pentru toate valorile marcate 
cu steluță de-a lungul unei linii, cu membrul drept depinzind de valorile 
cunoscute ale liniei de deasupra și de dedesubt. Metoda SLOR cu accele- 
rare Cebişev foloseşte ecuaţiile 45.22) şi (5.123 a), lucrează în mod linie, 


iar acum, factorul de convergenţă al metodei Jacobi este, pentru problema 
modelului : 


p = cos(z/n)/[2—cos (z/n)] = 1—2/m? (5.126 a) 
Ecuația (5.122 b) este valabilă, cu noya valoare a lui p, ceea ce conduce la 
Asror = ©» — 1 œ 1 — V2(2/n) (5.126 b) 

şi l l 
ton = ton [V2 = np/4 (5.126 c) 
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Astfel, asimptotic, numărul de iterații necesar pentru o reducere dată a 
erorii este în cazul metodei SLOR de 2-12 = 0,7 din numărul iteraţiilor 
necesare pentru metoda SOR. 

Deci, metoda SLOR constă din rezolvarea a n/2 sisteme tridiagonale 
de lungime n la fiecare iterație jumătate. Dacă se rezolvă sistemele în 
paralel cu cel mai bun algoritm serial (procedura MULTGE din $5.4.4 
cu m = n/2) obţinem un paralelism de n/2 și un timp necesar pentru 
execuţia unei iterații complete proporțional cu 


ta = 24 n(n + 1/2) (5.127 a). 


Pentru a obţine această estimare am considerat 4 operaţii aritmetice 
pentru fiecare punct, pentru a forma membrul drept al ecuaţiei (5.125), 
în plus la cele 8 operaţii necesare pentru fiecare punct în cazul rezolvării 
sistemului tridiagonal general. Se introduce un factor de 2, deoarece fiecare 
iteraţie este construită din două iterații jumătate. În alt mod, sistemele 
pot îi rezolvate cu paralelism n2/2 cu algoritmul PARACR,,, (vezi $ 5.4.4). 
Timpul necesar execuţiei unei iterații este în acest caz proporţional cu 


ta = 2(Napa + n2/2) (44+-12l0g,n) (5.127 by 


unde numărul 4 din ultimul factor se referă la calcularea părților din mem- 
brul drept, iar termenul logaritmic este pentru rezolvarea sistemului tri- 
diagonal cu algoritmul PARACR (vezi ecuaţia (5.66 b).). 

Am văzut că ambele metode, SOR şi SLOR, pot fi implementate cu: 
paralelism fie de n/2, fie de n2/2. Care implementare este cea mai bună, 
va depinde în primul rind de apropierea valorilor n/2 sau n2/2 de parale- 
lismul hardware natural al calculatorului. Vom considera cele două 
cazuri extreme ale calculatoarelor ICL DAP cu paralelismul natural de 
64x64 şi CRAY X-MP cu paralelismul natural 64. Reţele ce intervin în 
mod real, cu o rezoluţie bună au probabil între 32 şi 256 puncte pentru 
fiecare direcție. Astfel este natural de a exploata paralelismul calcula- 
torului ORAY X-MP cu o parte a reţelei, pentru care să se folosească 
algoritmi ce au paralelism n sau n/2. Pe de altă parte, este natural de a. 
folosi paralielismul calculatorului ICE DAP pentru algoritmi cu paralelism 
n? sau n2/2. Această alegere este şi mai convingătoare dacă ne gîndim că: 
ICL DAP este un masiv bidimensional de procesoare. 

După alegerea nivelului paralelismului care este cel mai indicat pentru 
calculatorul respectiv, trebuie văzut care este cel mai bun algoritm, Ce- 
bişev SOR sau Cebişev SLOR. La CRAY X-MP cu paralelism n/2, SOR 
va fi algoritmul cel mai bun dacă 


ta < ta/V2 l (5.128 a) 


unde |2 reflectă convergența mai bună a metodei SLOR. Deoarece tp 
= ta [vezi ecuațiile (5.124 b) şi (5.127 a)], condiția de mai sus (5.128 a) 
nu poate fi respectată niciodată, deci SLOR va fi întotdeauna cel mai 
bun algoritm pentru CRAY X-MP. Formulat altfel, timpul necesar unei 
iterații este acelaşi pentru paralelism n/2 şi SLOR cîştigă datorită con- 
vergenței ei mai rapide. 
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Pentru ICL DAP cu paralelism n?/2, SOR va îi algoritmul cel mai 
bun dacă 


ta < t,/ V2 ~- (5.128 b) 
sau : 


24 < Va (4 + 12log 21) (5.128 e) 


Această condiție este satisfăcută pentru n > 2, deci pentru toate rețelele. 
De aceea, pentru ICL DAP implementarea metodei SOR este cea mai 
avantajoasă. Rezultatul este determinat de faptul că rezolvarea paralelă 
a ecuațiilor tridiagonale prin reducere ciclică necesară la rezolvarea SLOR 
introduce operaţii aritmetice suplimentare. În acest caz, convergența mai 
bună a metodei SLOR nu este suficientă. 

Ultima metodă iterativă ce poate fi folosită este metoda de modificare 
implicită a direcţiei (ADI). Aceasta este reprezentată în fig. 5.23 (c şi d). 
Cînd se folosește la rezolvarea ecuaţiilor diferenţiale 


(L: + Lp)0=p (5.129 a) 
unde L, şi L, sînt matrici ce reprezintă operatorii cu diferențe finite după 
direcţiile x şi y, soluția se determină iterativ, plecînd de la o valoare 
iniţială cu l ` 

(EF rals) Q+ = (Á — raLy) 00 + raq (5.129 b) 
(EA ral) Pet = (I — rala) Pati? $ raq (5.129 ¢) 


unde n = 0,1, ... este numărul iterației, iar parametrul r, se modifică 
la fiecare baleiere dublă în sensul îmbunătățirii convergenței aproximă- 
rilor DV ale soluției O. Dacă ne interesează PDE generală liniară de 
ordinul doi (ecuația (5.119 a)), Ly şi Ly sînt matrici tridiagonale. Ecuația 
(5.129 b) implică calculul membrului drept la costul a 7 operații pentru 
fiecare punct, urmate de rezolvarea a n sisteme tridiagonale independente 
(unul pentru fiecare linie orizontală a caroiajului) de lungime n fiecare 
(vezi fig. 5.23(c).). Evident, aceste sisteme pot fi rezolvate în paralel fie 
cu paralelism n, fie n?, ca în cazul metodei SLOR. Iteraţia se execută cu 
un proces de calcul similar, doar că acum sistemele tridiagonale se rezolvă 
de-a lungul fiecărei linii verticale a caroiajului (vezi fig. 5.23(4)). 

Dacă paralelismul utilizat este n (de exemplu, pentru CRAY X-MP), 
folosim metoda MULTIGE, iar timpul necesar execuţiei unei iterații este 
proporțional cu » ' 


ts = 301 (ia + D) (5.130 a) 


Pe de altă parte, folosind un paralelism n? (ICL DAP, de exemplu) şi 
metoda PARACRp timpul de calcul este proporțional cu 


te = 2(nip2 + 0?) (7 + 12log2n). (5.130 b) 
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Faptul că datele sint accesate întîi după linii orizontale şi apoi după linii 
verticale poate complica implementarea ADI pe unele calculatoare. Dacă 
caroiajul este astfel memorat încît elementele adiacente în liniile verticale 
sînt adiacente și în memoria calculatorului (modul de memorare FOR- 
TRAN, după coloane), atunci rezolvarea ecuaţiei (5.129 b) nu va pune 
probleme deoarece incrementul între elementele vectorului este unitatea. 
Totuşi, în rezolvarea ecuaţiei (5.129 c) incrementul dintre elementele vec- 
torului va fi egal cu numărul de variabile dintr-o coloană. Dacă este o 
putere a lui 2, conflictele de acces la memorie pot fi o problemă chiar și 
pentru calculatoare ca CRAY X-MP, care permit utilizarea incremenţilor 
diferiți de unitate. Problema poate fi evitată prin memorarea structurii 
ca şi cum ar avea lungimea coloanei mai mare cu 1 față de cea reală. Pe 
de altă parte, pe calculatoare ca CDC CYBER 205 care acceptă numai 
vectori cu increment unitate, cel de-al doilea pas al metodei ADI poate 
fi executat numai după o rotaţie a întregii structuri în memorie. Costul 
acestei operaţii poate face ADI o metodă neatractivă pentru astfel de 
maşini, în comparaţie cu metoda SLOR care accesează datele numai în 
direcţie orizontală. Experienţa, aplicării metodelor ADI şi SLOR este 
variată şi nu există nici un mod a priori de a determina care este metoda 
cea mai avantajoasă pentru o anumită problemă. Poate fi necesar să se 
încerce ambii algoritmi. 


5.6.2 Metode dirgete : MFT, FACR (|) 


Metodele directe sînt acelea care permit obţinerea soluţiei într-un 
număr finit de paşi sau operaţii aritmetice. Deoarece nu se folosesc ite- 
rații, eficiența lor nu depinde de calitatea valorilor inițiale sau de abilitatea, 
de a judeca corect cînd să fie oprit procesul iterativ. Pe de altă parte, 
metodele directe de rezolvare a ecuaţiei liniară generală cu diferenţe finite 
(5.119 b) se pot aplica numai caroiajelor cu pînă la 1000 puncte, care nu 
sînt un obiectiv prea important pentru calculul paralel. De aceea, vom 
discuta tehnicile de transformare speciale care sint disponibile pentra 
rezolvarea ecuaţiei Poisson în pătrat sau dreptunghi, cu condiţiile la 
graniţă 


Drq- F Doan + Po-a + Por a—4Poa = fpa 
P, q =0,1, ... 0—1 = (5.131) 


unde coeficienții sînt constanți: apa = Pp, = Cpa = dpa = Şi epg = 
= —4. Aceste metode, denumite adeseori Tezolvitori rapizi eliptici Bau 
algoritmi RES, sînt mai rapide cu un ordin de mărime decît metodele 
iterative descrise în $5.6.1 şi pot fi aplicate caroiajelor cu 10 000 sau 
mai multe puncte. Metodele RES sint inerent înalt paralele și deci foarte 
adecvate pentru implementarea pe calculatoare paralele. Rezolvitorii elip- 
tici rapizi au fost analizaţi de Swarztrauber (1977) şi de Hockney (1980), 
iar performanţele diverșilor algoritmi, comparate de Hockney (1970, 1978) 
şi Temperton (1979 a) pentru cazul calculatoarelor seriale şi de Grosch 
(1979) și Temperton (1979 b, 1980) pentru calculatoare paralele. 
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Rezolvitorii eliptici rapizi sînt definiţi ca fiind acele metode cu un 
număr de operații de ordinul nlog;n sau mai bine [de exemplu, FACR(l) 
sînt de ordinul n log (logan)], care sugerează imediat uitilizarea algorit- 
milor pentru transformate rapide (vezi $ 5.5). Cea mai simplă metodă se 
obţine prin considerarea, unei transformate Fourier dublă a ecuaţiei (5.131) 


[2 cos (2nk/n)-+2 cos (27l/n)—4] O = P (5.132 a) 
unde 
Dr = — F Dog exp[—2ri (kp + 1q)/n] (5.132 b) 
= p;a=0 
Și . 
Dra = F Dr exp[ + 2ni (kp + a/n] (5.132 e) 
k,1=0 


și în mod similar pentru F Si foa . Ecuația (5.132 a) permite calculul ampli- 
tudinilor armonice Fourier a soluției, “O! prin împărțirea armonicelor din 
membrul drept, f", cu-factorii numerici cunoscuţi din parantezele pătrate. 
Următoarea metodă de transformare Fourier multiplă, (MFT) se impune 
de la sine: 

a) Analiza Fourier fa folosind FFT, fpa > fii; 

b) Împărțirea paralelă a ecuaţiei (5.132 a) cu [...], "> 0"; 

€ c) Sinteza Fourier O folosind FET, 0! > Oa. 

Atit analiza cît şi sinteza, Fourier pot fi executate convenabil prin transfor- 
marea la început a tuturor liniilor de date după direcția x, ca în fig. 5.23(¢) 
şi apoi transformarea datelor rezultate pe linie în direcția ş y, ca în fig. 5.23(d). 


Aceasta se poate interpreta în mod evident ca reformularea, echivalentă, 
expresiei (5.123 b) 


n—i n=l 
pr — 1 $ (= Y Ora exp(—2aikp/n ) exp (—2rilq/n) (5.134) 
q= P= i 


unde suma interioară este transformată după x, iar cea exterioară transfor- 
mată după y. Am considerat, mai sus, condiții la graniţă cu periodicitate 
dublă. Condițiile Dirichlet (valoare dată) pot fi atinse dacă; se foloseşte 
transformata finită sine, iar condițiile Neumann (gradient dat), dacă se 
foloseşte transformata finită cosine. Aceste rafinamente nu modifică cele 
spuse privind implementarea paralelă. 

Transformatele după linie din ecuația (5.134) sînt toate independente 
şi pot fi executate în paralel cu paralelism n sau n?. În primul caz, se 
execută în paralel n transformate reale cu cel mai bun algoritm serial, 
adică metoda MULTFT definită de ecuația (5.100 a) cu m = n. Timpul 
total de execuție al algoritmului este 


1 2 
tyurrr = 4 X A X ön (Dı + njlog;n (5.135 a) 
= 10 n (D; + n) log. n (5.135 b) 
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Factorul 4 din ecuaţia (5.135 a) vine de la necesitatea de a transforma 
toate punctele de 4 ori — analiza şi sinteza în direcţiile x și —y, iar fae- 


torul L- datorită execuţiei transformatelor reale, şi nu copmlexe. Dacă 
se execută n transformate în paralel cu algoritmul PARAFT pan, parale- 
lismul este n? şi s 


UraRaFTpar = & X X 8(nay2 + n?)log, n (5.136 a) 


w|= 


= 16 (Dap + n?) log; n (5.136 b) 


Alegerea paralelismului va urma același raționament cu cel de la metodele 
iterative, Probabil vom folosi paralelismul n pe calculatorul CRAY X-MP 
și n? pe calculatoare ca ICL DAP. Deoarece ambele nivele de paralelism 
sînt la fel de adecvate pentru hardul calculatoarelor, ne putem întreba 
care algoritm este cel mai bun. Algoritmul PARAFT,. va avea o perfor- 
manţă mai mare dacă 


urez > brararT - (5.137 a) 
de unde 


Dig 6n 


H 5.137 
n 7 100 —16 “mad 


Dp, În fig. 5.24 se prezintă zonele din pla- 
î nul (nyya/n), n) unde cei doi algoritmi 
| sint mai buni, conform ecuaţiei 
lg (5.137 b). Observăm că, pentru yec- 
: | ` tori cu o lungime rezonabilă (să spu- 
| zii nem n > 10), metoda PARAF Tar 
ad MUNE este cea mai avantajoasă dacă 
f A (Dy/0), 2 0,5. Cu alte cuvinte, nu 
4 PARAFTpa este surprinzător că dacă calculato- 
= rul „apare” paralel cînd este evaluat 
cu scala vectorului (n 2 n/2), algo- 
ritmul proiectat pentru a maximiza 
„ Dumărul de operații paralele este cel 
4 w mai avantajos. 
Mpa À ` Transformata Fourier multiplă 
Fig. 5.24 „Regiunile din planul (nyya/n, n) ce Ajoa ae 

tasinan ie Peeni mtoni MET fe mai este folosită la rezolvarea unor 
cu algoritmul MULTFT, fie cu PARAFTpar- probleme înrudite [exprimate cu con- 
Conform ecuației (5.137b). voluții. De exemplu, potențialul unui 
punct de pe caroiaj poate fi seris ca suma contribuţiilor tuturor celorlalte 
puncte ca surse, multiplicată cu un factor cunoscut (funcţia G alui Green), 

care depinde numai de separarea între sursă şi punct. Astfel, 


n-la-l 


Opa = E F Gp-sa-tfat (5.138) 


s=0t=0 
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Acest mod de formulare a problemei potenţialului este adecvat cînd sursele 
formează un grup izolat şi singura condiţie este că potenţialul scade con- 
stant spre co. Un exemplu este calculul potenţialului unui grup de galaxii 
sau stele (vezi Hockney 1970), în care caz G reprezintă interacțiunea co- 
lumbică r-1, unde r este distanţa dintre sursă şi punctul de potenţial ana- 
lizat. Expresia anterioară mai este folosită în metoda. P*M (Hockney și 
Eastwood 1988) pentru calculul potenţialului în sistemele mari de.ioni ce 
interacționează. 

Ecuația (5.138) este echivalentă cu aserțiunea că potenţialul este 
convoluția funcţiei de distribuţie a sursei f cu funcţia Green, G. Teorema 
convoluţiei (vezi Bracewell 1965) stabileşte că transformata Fourier a con- 
voluţiei este proporţională cu produsul transformatelor Fourier ale func- 
ţiilor implicate. Considerind transformata ecuaţiei (5.138) obținem : 


pi = pae k,l = 0,1, ..., 0—1 (5.139 a) 
Procedeul de rezolvare decurge astfel 


xG FFT 


. El 
Ery pa LE pi E Ppa (5.139 b) 


Joa T Ţin 


Este aceeaşi procedură cu (5.133) unde înmulţirea cu G înlocuiește împăr- 
țirea la [ ] a ecuaţiei (5.132 a), iar algoritmul MULTET sau PARAFT 
pot fi folosite, conform celor discutate anterior. 


Metoda de transformare schițată în paragraful anterior se bazează 
pe existenţa teoremei de convoluţie pentru înlocuirea sumei multiple 
(5.138) cu înmulţirea simplă paralelă din ecuaţia (5.139 a). Plecind de la 
ecuația (5.111) se poate arăta uşor că transformata teoretică numerică 
Fermat (NTT) respectă de asemenea o teoremă de convoluţie. Deci, metoda 
detinită de ecuaţia (5.139 b) poate fi folosită cu FFT în loc de NTT, iar 
operațiile în virgulă mobilă înlocuite cu operaţii întregi modulo, conform 
$ 5.5.6. Eastwood și Jesshope (1977) prezintă în detaliu această metodă, 
recomandind-o pentru rezolvarea anumitor PDE tridimensionale pe caleu- 
latoare ca ICL DAP. James și Parkinson (1980) au stabilit eficienţa me- 
todei pentru rezolvarea ecuaţiei Poisson în cazul unei probleme gravita- 
tionale pe o structură 65 X 65 x665. 

Unul din primii şi cei mai apreciaţi rezolvitori eliptici rapizi este 
metoda de analiză Fourier cu reducere ciclică a algoritmului FACR (Hoc- 
kney 1965, 1970, Temperton 1980). Aceasta a fost folosită pentru mini- 
mizarea numărului de operaţii aritmetice pe calculatoare seriale, prin 
reducerea dimensiunii transformatei Fourier, și are un număr de operaţi 
asimptotic egal cu 4,5 n? log, (logan), pentru o utilizare optimală (vezi 
Hockney şi Eastwood 1988). Algoritmul FACR este eficient şi pe calcula- 
toare paralele. 

Ecuația Poisson discutată (5.131) poate fi reserisă : 


Da-i + AQ, + Pau = fy 0=0,1,...,n—l (5.140) 
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unde elementele vectorilor coloana ®, și fa sint, respectiv, valorile de poten- 
tial şi membrul drept după linia orizontală q a caroiajului. Matricea tri- 
diagonală A, nxn, are o diagonală —4 şi diagonalele de deasupra şi de 
dedesupt unitate. Această matrice reprezintă diferenţierea ecuaţiei după 
direcţia x. 

Dacă înmulţim fiecare ecuaţie de linie pară, ca ecuaţia (5.140) cu —A 
şi adunăm ecuaţiile corespunzătoare liniilor impare de deasupra şi dedesupt, 
obţinem o mulțime de ecuaţii ce leagă numai liniile pare 


De-a + ADO, + Pose = fP (5.14la} 
unde 
A = 21 — A? = (YZI + A) (V2 I — A) (5.141 b} 
şi 
FO = fha — Afh + fan (5.141 c} 


Aceasta reprezintă un nivel al reducerii ciclice, pe o linie, a ecuațiilor ini- 
tiale. Ecuațiile rezultate 4.141 a) sint jumătate ca număr (numai linii 
pare) şi au aceeaşi formă cu cele iniţiale (5.140). Procesul de reducere ciclică. 
poate fi continuat recursiv, producînd mulţimi reduse de ecuaţii pentru 
fiecare a patra, a opta, a șaisprezecea linie, ete., la nivelele r = 2, 3, 4 ete. 
La fiecare nivel există o nouă matrice centrală A (r) care poate fi expri- 
mată ca produs a 2% matrici tridiagonale 


A= — i (A — B.I), Bk = 2 cos [352] (5.142) 
ii On+l 


Factorizarea pentru r = 1 este prezentă în expresia (5.141 b) a ecuaţiei. 


Dacă reducerea ciclică este oprită la nivelul r = 1, ecuaţiile obţinute 
sînt 


Pa-zl -L AD, L ato! — E, q — (0, L, .. .) x 2! (5.143 a) 


Aceste ecuații sint rezolvate prin analiza Fourier după direcția x, de-a 
lungul vectorilor, conducînd la ecuaţii armonice independente pentru 
fiecare armonică E 


DEA bE + Di = ft k = 0,1, ..., 0—1 (5.143 b} 


unde ^ este o constantă pentru fiecare armonică, ce depinde de condiţiile 
la graniţă în x şi rădăcinile ale ecuaţiei (5.142). Ecuațiile (5.143 b) sînt 
sisteme n tridiagonale de lungime n2— şi se rezolvă, cu ușurință. Procedura 
de rezolvare a ecuaţiei (5.143 a) este 


FFT rezolvarea — FFT 


fo JE oD, (5.143 c) 


Sinteză 
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Găsind soluţia fiecărei linii 2! din ecuaţia 5.143 c), liniile intermediare pot 
fi obţinute succesiv din ecuaţiile de nivel intermediare 


AUD, = JP — Pa- — Oar pentru r=1—1,l—2,...,0 (5.144) 


Se găseşte, la aplicarea a n2-**V linii necunoscute, că valorile lui din membrul 
drept al ecuaţiei (5.144) sint valori calculate la nivelele anterioare mai 
adinci. Datorită factorizării (5.142), rezolvarea ecuaţiei (5.144) necesită 
rezolvarea succesivă a 9! sisteme tridiagonale. 


Algoritmul de mai sus este denumit FRAT (1) unde argumentul repre- 
zintă numărul de nivele ale reducerii ciclice executate înainte ca ecuaţia 
să se rezolve ca analiză Fourier. Hockney (1978) a arătat numeric, iar 
Swarztrauber (1977) a demonstrat analitic că există o valoare optimă 
1= * = log, (logn) care conduce la numărul minim de operaţii arit- 
metice, Cu cit creşte numărul reducerilor ciclice (prin creşterea lui 1), cu 
atit se execută mai puţine transformate Fourier (sint mai puţine linii) ; 
totuşi, trebuie rezolvate mai multe sisteme tridiagonale cu ecuaţia (5.144) 
pentru a obţine liniile intermediare. De aceea, valoarea exactă a optimului 
1* depinde de eficienţa relativă a codului folosit pentru FFT și rezolvarea 
sistemelor tridiagonale. Un cod FFT mai bun va conduce la un l* mai 
mic, iar un rezolvitor tridiagonal mai bun la 1* mai mare. Probabil cea 
mai bună strategie este de a scrie un cod pentru un | generic, şi să se 
măsoare valoarea optimă. Temperton (1980) a realizat aceasta pe IBM 
360/195 cu codul denumit PSOLVE (optim 1* = 2), şi de Temperton 
(1979 b) pe CRAY-1 (optim 1* = 2 în modul scalar, 1* = 1 în modul vec- 
torial). Este evident că introducerea paralelismului la implementarea 
FACR:1) conduce optimul 1* la o valoare mai mică. Vom vedea că acest 
rezultat empiric concordă cu estimările teoretice simple ale performanţei, 
pe care le prezentăm în continuare. i 

Din descrierea anterioară este evident că dacă reducerea ciclică se 
execută cu l x logm, va rămîne o singură ecuaţie de rezolvat pentru 
linia centrală. Aceasta are forma ecuaţiei (5.144) unde valorile lui Î din 
membrul drept sint, funcție de condiţiile la graniţă, fie valorile la graniță 
cunoscute, fie aceleaşi cu linia din membrul stîng. Deci, ecuaţia poate fi 
reprezentată fără analiza Fourier, la fel cu toate liniile intermediare. Metoda 
reducerii ciclice complete (CLCR), care poate fi numită procedură FACR 
(logan), a fost enunțată de Buneman (1969) care a arătat cum, la costul 
unor operaţii aritmetice suplimentare, procedura poate fi făcută numeric 
stabiiă, Analiza teoretică a stabilităţii numerice a reducerii ciclice pe 
linie a tost formulată ulterior de Buzbee et al (1970). 


Metoda FACI) poate fi programată folosind fie forma instabilă 
a reducerii ciclice descrisă anterior, fie procedura stabilizată a lui Bune- 
man, dar aceasta are un efect marginal asupra valorii optime a lui 1*. În 
practică, se găseste că reducerea instabilă poate fi folosită pentru valori 
mici ale lui 1 = 1, 2, utilizată de FACR(), iar că reducerea stabilizată 
trebuie folosită dacă reducerea ciclică este folosită pentru 1 în domeniul 
5—7. Deoarece CLCR foloseşte valori ale lui 1 depărtate de optim şi nece- 
sită operaţii aritmetice suplimentare pentru stabilizare, nu o vom trata 
în continuare. Cu toate acestea, deşi ambele metode au fost cunoscute şi 
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publicate în 1970, aplicarea metodei SLCR adominat literatura de specia- 
litate în cursul anilor '70 (vezi, de exemplu, trecerea în revistă a lui Swarz- 
trauber 1977). Performanţa relativă a reducerii complete CLCR ca și redu- 
cerea, parţială caracteristică pentru FACR() au fost testate sub forma a 
aprosimtativ 20 rezolvitori diferenţiali Poisson la Karlsruhe in 1977 
(Schumann 1978). Acest concurs a fost cîştigat de programul PSOLVE 
al lui Temperton, un algoritm FACR (3) stabilizat, care a fost de 1,8 ori 
mai rapid decît cel mai bun program ce a folosit reducerea ciclică com- 
pletă. Este interesant faptul că eroarea măsurată pentru ansamblul calcu- 
lelor a fost mai mică pentru o procedură FACR (1) „nestabilizată”, denumită 
POTI, decît pentru programul stabilizat. Aceste rezultate ce favorizează 
metoda FACR() au fost obţinute pe calculatoare seriale. Subliniem că 
argumentele împotriva utilizării reducerii complete sînt mai puternice 
cînd se ia în considerare implementarea pe calculatoare paralele, așa cum 
vom vedea. 


În continuare trecem în revistă paşii de execuţie ai algoritmilor 
FACR(1), ca şi timpul de execuţie pe un calculator paralel caracterizat 
de un niz. În fig. 5.25 se prezintă modalităţile de structurare a datelor la 


- Pașii (a) și (b) Pas {c} 


Pas (d) Pas (e) 
Fig. 5.25 Modelele de structurare a datelor în paşii diferiţi ai algoritmului 
FACB (1). Săzeţile ndică fie o transformată Fourier, fie un sistem tri- 
diagonal de ecuaţii. 
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paşi diferiţi, pentru cazul algoritmului FACR(1), unde se execută o singură 
reducere ciclică. inițială. l 

Algoritmul FACR() constă din 5 etape şi poate fi implementat fie 
pentru minimizarea numărului total de operații aritmetice, s (varianta 
serială), fie pentru a minimiza numărul total de operații vectoriale, q 
(varianta paralelă), aşa cum s-a specificat în $ 5.1.6. Varianta serială este 
denumită SERIFACR, iar cea paralelă PARAFACR. Vom descrie cele 
două metode şi le vom compara cu metoda n2 de analiză a algoritmilor. 
Obiectul analizei este de a găsi care este varianta cea mai bună pentru un 
anumit calculator și, în al doilea rînd, de a alege valoarea optimă a lui 1. 
Aceasta se va realiza prin desenarea diagramelor de fază algoritmică (Hock- 
ney 1983). 


(i) Algoritmul SERIFACR 

În această versiune a algoritmului, lungimea vectorului este propor- 
țională cu n, numărul de puncte după o direcţie a caroiajului. Cele 5 etape 
ale algoritmului FACR(l) sînt : 


(a) Modifică RHS — pentru r=1, 2, ..., 1 modifică membrul 
drept pe n2-* linii în parale! folosind generalizarea ecuaţiei (5.141 c€) 


P = fari — ADI + fasa! (5.145 a) 


la costul a (3% 2°-1-+2) n opera-ții aritmetice pe linie 
i 
ta = $ (ny: + 0-27)(3 X21 + 2)n (5.145 b) 
rel 


(b) Analiza FFT— pe n2- linii în paralel folosind algoritmul MULTFT 
Fiecare transformare este reală, și de lungime n : 


te= (D1 + n-2-).2>-n-log;n (5.145 ©) 


(c) Rezolcarea ecuaţiilor armonice — n ecuaţii tridiagonale,fiecare de 
lungime n2-' rezolvate în paralel cu algoritmul MULTGE 
te = 5 (Dy + n)n-2- (5.145 d) 
Coefi cientul este 5 şi nu 8 deoarece ecuația (5.143 b) are doi coeficienți care 
sînt unitatea (a, = & = 1). 


(d) Sinteza FFT— pen2- linii în paralel folosind algoritmul MULTFT. 
Fiecare transformată este reală și de lungime n 


ta = (Dy 4 n-2-))2. aleg (5.145 e) 
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* (e) Obţinerea liniilor intermediare prin rezolvarea ecuației (5.144), ce 
implică (2+5xX2")n operaţii pe linie pentru n2-0*Vlinii şi r=1—1, l—2, 
a 
1-1 


te = ŞI (mp + n-2-00)(5 x 2 + 2)n (5.1458) 
r=0 i 
gi 5 (nys + n.27”) (5x21 -+ 2) n (5:145 g) 


-< =i 


Timpul total de execuție pentru algoritmul FACR(1) este 
1 
tsenmacr = $ (Dya + n27) (8X2! + 4) n +5 (D, 4n-27"') n logn 
r=i 
+5 (Ma + n) n-27! i | (5.146 a) 


Evaluind sumele obținem timpul pentru un punct 


n-2tspipacn = [Al + 4 + (1+5 logn)2) 
Niz 1 = 9-A n 
+ Îi [41 8x21 —84+ 5x21 + 5. logan] (5.146 b) 
n 


unde prima paranteză pătrată este numărul de operații normale pe un 
calculator serial”, iar a doua ia în considerare efectul implementării pe un 
calculator paralel. Observăm că prima paranteză are un minim pentru 
1=log, (log, n), dara doua crește monoton cu 1l. Astfel, pentru calculatoare 
paralele care au Dyz > 0 tsaarracr Minim se obține cul mic, așa cum s-a spus. 

Linia de performanţă egală între algoritmul cu 1 nivele de reducere şi 
cel cu 1+ 1 se află cu 


nym = ((L+5 logpn)2-0+0—4]/(4+8x21—5x2-45) (5.147) 


Forma acestei ecuații sugerează că un plan al parametrilor adecvat pentru 
analiza SERIFARC este planul fazelor (ny,/n, n), lucru arătat în fig. 
5.26. Liniile de performanță egală definite de ecuația (5.147) împart planul 
în regiuni în care l = 0, 1,2, 3 sint alegeri optime. Liniile de valoare con- 
stantă ale lui n, se află la 45° față de axă, iar liniile pentru nı, = 20, 
100, 2048 apar întrerupte în figură. Se consideră că aceste linii sint tipice 
pentru calculatoarele CRAY-1, CYBER 205 şi corespund performanţei 
medii a lui ICL DAP. Pentru dimensiuni reale ale caroiajelor (de exemplu, 
n < 500) se indică folosirea lui 1 = 1 sau 2 pe CRAY-1, 1 = 0 sau 1 pe 


+ Hockney (1970, 1980; a stabilit valoarea d: 1,5 | pentru primul term en din paranteză. 
Explicaţia constă în aceea că s-a consid>rat pentru rezolvarea sistemelor tridiagonale, reducerea 
ciclică scalară (5 operații pentru un punct), în lo: eliminării gausiene considerată aici (5 operativ 
pentru un punct). Alte consid:rente au influențe minore asupra acestei ecuații. 


r 
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CYBER 205 şi 1 = 0 pe ICL DAP. Valoarea mai mică din cele două ale 
lui 1 se aplică problemelor cu n < 100. Temperton (1979 b) a determinat 
timpul de execuţie al unui program SERIFACR() pe CRAY-1- și a mä- 
surat valoarea optimă 1 = 1 pentru n = 32, 64 și 128. Aceste rezultate 
concordă cu cifrele noastre cu excepţia lui n = 128, pentru care fig. 5.26 
furnizează valoarea optimă l= 2. Această ditcrepanţă apare probabil 
deoarece Temperton foloseşte forma Buneman a reducerii ciclice (vezi 
Hockney 1910) care crește costul calculului reducerii ciclice și tinde să 
deplaseze valoarea optimă a lui 1 la valori mai mici. Pentru o anumită 
dimensiune a problemei (valoare a lui n), fig. 5.26 ilustrează mai mult 
calculatoare seriale (Dı mic) la stinga și mai mult calculatoare paralele 
(ni mare) la dreapta. Deci, cu cît este mai paralel calculatorul, cu atit 
este mai mică valoarea: optimă a lui 1. 

În cazul algoritmului 
SERIFACR, vectorii sînt 
organizaţi de-a lungul unei 
direcţii a caroiajului și nu 
depășesc niciodată lungi- 
mea, n. Acesta este un al- 
goritm adecvat pentru cal- 
culatoare care operează 
bine cu astfel de vectori, £ 
acei cu Dy,< n şi/sau care ¥ 
au un paralelism natural ; 
(sau lungime a vectorului) 
mai mic sau egal cun. | 
Ultima afirmaţie se referă : 
la faptul că unele calcula- 
toare (CRAY X-MP, de 
exemplu) au registre vec- 
toriale capabile de a me- 
mora vectori de o anumită 
lungime (64 la CRAY X- 
MP). De aceea, un algoritm | 


è 


care foloseşte vectori cu 
această lungime este avan- 
tajos deoarece corespunde 
hard-ului calculatorului. 
De exemplu, algoritmul 
SERIFACR va fi adecvat în 
particular pentru rezolva- 


i ; 
i e i 
Fig. 5.26 Planul parametrilor (n,/2/n, n) pentru algoritmul 
SERIFACR (). Liniile pline delimitează regiunile unde 
valorile lui conduc la timpi Ce execuţie minimi. Liniile 
intrerupte corespund la n,/, constant pentru CRAY-1 
(n/a = 20), CSBER 205 (n,/4= 100) şi performanţa medie 


perie a lui ICL DAP (m/,=2048). (Conform Hockney (1983). 
rea problemei Poisson 64 xX i 


64 pe CRAY X-MP cu vectori de lungime maximă 64, deoarece 
această mașină realizează mai mult de 80% din performanța sa 
pentru vectori cu această lungime. Pe alte calculatoare, ca CYBER 205, 
nu există, registre vectoriale şi n 2100. Pentru aceste maşini este de dorit 
ca lungimea, vectorului să, fie cit mai mare, preferabil de ordinul miilor. 
Aceasta înseamnă că algoritmul FACR trebuie implementat astfel încît 


paralelismul să fie proporţional cu n? mai mult decit cu n. Cu alte cuvinte, 
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vectorii corespund structurii bi-dimensionale ca ansamblu, mai degrabă 
decît după o dimensiune. Algoritmul PARAFAGR, care va fi descris în 
continuare, este proiectat tocmai pentru a realiza acest lucru. 


(ii) Algoritmul PARAFACR 


Fiecare etapă a algoritmului FAOR poate fi inplemen, cu vector 
de lungime proporțională cu nè. 

(a) Modifică RHS — la fiecare nivel, r, de reducere ciclică, modifi- 
carea părții dia membrul drept poate fi făcută în paralel cu toate cele 
n2-n-* puncte. Deci, formula de evaluare a timpului de execuţie devine 


t, = 5 (Dia + n2.2-1) (3X2! + 2) . (5.148 a) 


(b) Analiza Fourier — cele n2~' transformate de lungime n sînt exe- 
cutate în paralel ca la SERIFARC, dar acum folosim un algoritm paralel, 
PARAFT, pentru execuția FFT cu lungimea vectorului n. Pentru toate 
liniile lungimea vectorului devine n?.2-! iar ecuația timpului devine 


ta = (Mp + n?2-') 4 logn (5.148 b) 


Factorul 4 înlocuieşte 2,5 în (5.145 c) deoarece se folosese operații arit- 
metice suplimentare pentru a păstra cît mai mult lungimea vectorului 
cit mai mare în algoritmul PARAFT (vezi $ 5.5.4). Observăm de aseme- 
nea că factorul n s-a deplasat în interiorul parantezelor în urma comparajţiei 
ecuației (5.145 e) cu (5.148 b), deoarece lungimea vectorului a crescut de 
la n2- la n? 2- 

(c) Rezolvarea ecuatiilor armonice — ecuaţiile armonice se rezolvă, în 
paralel ca la SERIFACR dar folosim o formă paralelă a reducerii ciclice, 
PARACR, în locul eliminării gausiene, pentru rezolvarea sistemelor tri- 
diagonale (vezi $ 5.4.3). Pentru cazul special al coeficienţilor specificaţi 
anterior, există 3 re paralele la fiecare din cele logn nivele ale redu- 
cerii ciclice. Lungimea vectorului este n? 2-1 de unde 


te = (ny, + n22-) 3 logan (5.148 c) 
(d) Sinteza Fourier — ca etapă (b) 
ta = (D; + n22-1) 4 logn (5.148 d) 
(e) Completarea —la fiecare nivel r, trebuie rezolvate n2-" sisteme tri- 
diagonale de lungime n. Folosim PARACR, ca la etapa (c), lungimea vec- 


torului este n2.2-* . După aceea, pentru fiecare punct se execută 2 operaţii, 
care pot îi realizate în paralel, obținîndu-se 


1 
te = Şi (mn + n?27) (3x 2°- logn + 2) (5.148 e) 


r>l 
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Ficird sema, găsim că şentiu fiecare punct timyul de execuţie al algorit 
mului PARAFACR. este proporţional cu 


N 2tpapazaca = S + (Dy/02)q” (5.149 a) 
unde . 


Te -- (3 logan + 1) 1 + 4 +011 loga n — 4) 27 


q” = 4l 4 (3log; n + 1) (2:—1) + 11 logn (5.149 b) 


Linia de performanţă egală între algoritmul de nivel 1 şi 1 + 1 este defi- 
nită de 


Dj ]D2 = [a logn — 4) 270+) — — (3 logan + Due logn + 1)2] 
(5.149 ¢) 


Forma ecuației (5.149 c) ne face să alegem pentru reprezentare rezultatele 
algoritmului PARAFACR în planul parametrilor (Dayp/n2, n), lucru realizat 
în fig. 5.27. Obţinem că liniile de performanţă egală sînt aproximativ ver- 
ticale şi concluzionăm că l = 2 este optim pentru ni <O0l n, 1=1 
pentru 0,1 n? < Dy <n? şi l = 0 pentru nip > n?. Nu există circumstanțe 
cînd mai mult de două nivele să fie avantajoase, ceea ce justifică alegerea 
noastră pentru algoritmul FACR nestabilizat. În particular, pentru un 
masiv de procesoare cu un număr de procesoare mai mare sau egal cu 
numărul de puncte (N > n2), luăm ni = co şi găsim l1 = 0. Acest caz 
corespunde rezolvării unei probleme 64x64 pe ICL DAP, care este un 
masiv de 64x64 procesoare. Linia întreruptă pentru niz = 100 este 
prezentat în fig. 5.27, corespunzător lui CIBER 205. Pentru toate caro- 
iajele, mai puţin cele mai mici, 
(de exemplu, pentru n > 30) 
găsim l = 2 optim). S-a re- 
prezentat și linia pentru n/2= 
20, de unde concluzionăm 
că l = 2 este optim în toate 
circumstanțele, dacă acest 
algoritm este executat pe 
CRAY-1. n 


(iii) Comparaţie SERI- 
PACR|/ PARAFACR 


Pînă acum am considerat 

alegerea, celei mai bune valori | 
a lui l pentru fiecare algoritm. 
Optimizind fiecare algoritm, 
să vedem care este cel mai 
avantajos de utilizat. Putem 
afla, acest lucru prin trasarea 
tserıracr Și tpararacr functie 


10 


n/n? 
d „3. Fig. 5.27 Planul parametrilor (n,/>/n, n) pentru algorit- 
de (nu/„/n), pentru valori di- muj PARAFACR (1). Se folosesc aceleaș notații ca în 
erite: ale lui n. Astfel se fig. 5.26 (Conform Hockney (1983)). 
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determină aproximativ cel mai bun algoritm în regiuni diferite ale planului 
parametrilor. Se poate calcula apoi linia de performanţă egală între PA- 
RAFACE (l) şi SERIFACR (1) din 


nn = (a—b)/(c—d) | (5.150 a) 
unde 
ea 5 (3 logan + 1)1 + 4 + (L1 log,n — 4) 2- 
b = 4l + 4 + (1+ 5log, n)27" 
c=A4l' — 8 +48 x2" 4+5 x2" -4+ 5log 
i d = [4 l + (3 log; n+1) (2—1) + 11 log; n]/n 
Interacțiunea celor doi algo- 


ritmi este prezentată în fig. 5.28, 
în planul parametrilor (nı;/n,n). 
Cele doğ zone ale planului sint 
separate de o linie verticală, 
unde ISERIFARC este cel mai 
bun algoritm pentru ny, mici 
(sub 0,4 n, calcuatoare mai se- 
riale) şi că PARAFACR este 
cel mai bun pentru nı mare 
(mai mare ca 0,4 n, calculatoare 
mai paralele). Liniile de ny, con- 
stante corespund calculatoarelor 
CRAY-1L şi CYBER- 205. În 
concluzie, SERIFACR ar trebui 
folosit pe CRAY-1, exceptind 

structurile mici cu n < 64 cînd 
w? Pam 1 PARAFACR(2) este probabil să 


n , A 
Fig. 5.28 Comparaţie între SERIFACR (1) și pa- fieCelmai bun. Pe CYBER 205 
RAFACR (1), ce prezintă regiunile din pian para- Se preferă PARAFACR, excep- 


metrilor (n,/z/n?, n) unde fiecare se execută intr-un tind structurile foarte mari cînd 
timp minim. (După Hockney (1983) SERIFACR exoeptind. sirichu 
? 
rile foarte mari cînd SERIFACR(2) (300 <n < 1500) sau SERIFACR(1) 
(a > 1500) este cel mai bun. 


Ri SERIFACRI3I ) 


PARAFCRI2) 


5.6.3 Metode tri-dimensionale 


Numărul strategiilor diferite da rezolvare a ecuațiilor tridimensionale 
echivalente (5.119 b) este mare. Aici vom indica numai posibilităţile evi- 
dente şi vom lăsa utilizatorului estimarea procedurii celei mai bune pentru 
obiectivul său folosind rezultatele din $ 5.6.1. şi § 5.6.2. 

Metodele iterative vor trebui considerate numai pentru cazul coefi- 
cienţilor generail. Metoda SOR se poate evident generaliza și la trei dimen- 
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siuni. Și metoda SLOR de relaxare a liniei poate fi folosită în trei dimen- 
siuni prin presupunerea că toate liniile învecinate int corecte și prin 
efectuarea unei corecţii a liniei. Ajustarea unui întreg plan de valori, pre- 
supunind că planele vecine sint corecte (de exemplu SFOR) poate fi exe- 
cutată dacă există un program pentru rezolvarea planului de valori. 
Aceasta este, de exemplu, problema bi-dimensională din $ 5.6.1 gi $ 5.62, 
pentru care trebuie selectată o metodă adecvată. Pentru coeficienţi ge- 
nerali se va alege o metcdă iterativă, sau o metodă directă dacă problema 
bi-dimensională este ecuaţia Poisson bi-dimensională. Evident, alegerea 
cea mai bună va depinde de coeficienții ecuaţiei diferenţiale. Există un 
avantaj în rezolvarea cit mai multor dimensiuni ale problemei prin metode 
directe. Aceasta va fi posibilă pentru oricare dimensiune care are numai 
derivate pare calculate pe o structură uniformă. 

n discutarea metodelor directe în irei dimensiuni ne limităra la rezol- 
varea ecuaţiei Poisson discrete [generalizarea ecuaţiei (5.131) la trei dimen- 
siuni]. Următoarea posibilitate se sugerează: 

(a) MFT — metoda  transfoimatei Fourier multiple definită de 
(5.133) sau (5.139 b) poate fi aplicată dacă o transformată tridimensională 
înlocuiește  transfoimaia  bi-dimensională discutată anterior. Această, 
metodă este folosită de algoritmul P5M descris de Hockney şi Eastwood 
(1988). Metoda nu are un timp de execuţie minim, dar ar putea fi folosită 
dacă alte circumstanţe cer o cunoaștere a spectrului undelor tridimen- 
sionale ale sursei. Aplicaţii posibile sint reprezentate de fizica plasmei. 

(b) PACR() — această metodă se genereralizează la trei dimen- 
siuni dacă se înlocuieşte transformata Fourier după direcţia x cu o trans- 
formată bi-dimensională în planul (x, z). Apoi, se execută reducerea ciclică, 
după direcţia y. Deoarece, în această situaţie, transformata Fourier este 
de două ori mai costisitoare pentru fiecare punct (datele trebuie procesate 
după ambele direcţii, x și 2), valoarea optimă a lui | va fi mai mare 
decît cea din cazul bi-dimensicnal. Kascic (1983) a adoptat o procedură 
FACR/(0) pentru a rezolva o problemă 643 pe CYBER 205, deși el a folosit 
o formă a decompoziţiei LU pentru rezolvarea sistemelor tridiagonale. 

(c) Transformata ID — dacă se execută o transformată Fourier 
unidimensională, să spunem în direcţia z, fiecare armonică respectă o 
ecuație Helmholtz discretă (y2P-—k0 = f) în celelalte două dimensiuni. 
Ea poate îi soluţionată de orice rezolvitor Helmholtz. Dacă se întîmplă 
să fie procedura FACR (1) cu transformata Fourier în direcţia x şi reducere 
ciclică în direcţia y, se reinventează de fapt opţiunea (b) de mai sus. 

Cind se implementează opţiunile anterioare pe anumite calculatoare, 
trebuie luat în considerare paralelismul n, n? sau n?. În cazul cel mai 
simplu al MFT, se pot transforma n linii de lungime n în paralel, folosind 
cel mai bun algoritm serial şi acest proces se va repeta de n ori în cele trei 
direcţii. Altfel, se pot transforma n? linii de lungime n în paralel, folosind 
cel mai bun aqgoritm serial, proces repetat după toate direcţiile. În sfirsit, 
se pot transforma n? linii în paralel, folosind algoritmul paralel PARAFT 
şi să se obţină un paralelism n3. Consideraţii similare se pot face referitor 
la nivelele de paralelism folosite la implementarea metodelor iterative. 
Evident, nu avem posibilitatea de a prezenta și compara aici aceste alter- 
Dative ; cu informaţiile prezentate în acest capitol, cititorul interesat poate 
întreprinde această analiză singur. 
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TEHNOLOGIA ŞI VIITORUL 


În decursul ultimilor 5 ani, trecuţi de la publicarea primei ediţii a 
acestei cărți, s-au: înregistrat progrese importante în utilizarea calcula- 
toarelor paralele. Pină la acea dată, maşinile vectoriale pipeline precum 
CRAY-1 au dominat în domeniul arhitecturilor de superealculatoare. În 
anii '80, mulţi producători încearcă să satisfacă cererile de putere de calcul 
prin multiplicarea numărului de procesoare. Toţi producătorii de calcu- 
latoare vectoriale de la sfirşitul anilor '70 s-au orientat spre obţinerea unor 
performanțe mai mari prin includerea mai multor procesoare interconectate 
pirntr-o memorie comună. Un alt progres major este reprezentat de apa- 
riţia transputerului INMOS, ca şi a altor soluţii similare implementate pe 
un cip, care pot fi procesoarele multiple ale unui sistem. De exemplu, trans- 
puterul T800 poate lucra continuu cu o viteză de 1Mflop/s şi poate fi 
conectat cu alte transputere într-o reţea după 4 direcţii. Procesorul N-di- 
mensional (Emmen 1986) poate executa 0,5 Milop/s şi poate fi conectat 
într-o rețea după 10 direcţii (hipercuburi cu pînă la 1024 procesoare). Un 
număr de 1000 de circuite nu reprezintă, în ambele situaţii, un număr 
excesiv de mare pentru a fi inclus într-un singur sistem şi, de aceea, aceste 
circuite VLSI CMOS vor concura ca performanţe supercalculatoarele ECIa 
mai costisitoare. 

Într-adevăr, este folositor să analizăm aspectele tehnologice ale 
îmbunătăţirii performanţei supercalculatoarelor. În gama calculatorului 
ORAY-1, de exemplu, deşi performanţa a crescut în această perioadă de 
6 ori, numai o creştere de 1,5 este rezultatul creșterii frecvenţei ceasului ; 
celălalt factor de 4 provine de la utilizarea mai multor procesoare. Este 
destul de probabil că timpii de propagare pe o poartă s-au micşorat de 
mai mult de 1,5 ori, decît arată creșterea frecvenței ceasului, totuşi, lun- 
gimea conexiunilor electrice nu a fost redusă semnificativ la aceste mașini. 
Din acest motiv creşterea frecvenţei ceasului este limitată. Prin folosirea 
unui sistem de răcire ingenios, CRAY-2 poate lucra cu o frecvență mai 
mare, tocmai datorită compactizării sale. Oricum, tendința nu este spre 
producerea unor mașini ieftine. De aceea, se poate spune că multiplicarea 
este o soluţie avantajoasă (dorită sau nu) pentru obţinerea unei viteze de 
calcul mai mare. Unde ne vom îndrepta acum, după ce această barieră a 
fost depăşită, este subiectul acestui capitol. Ne vom limita la consideraţii 
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privind ‘arhitectura, deşi nu vom ingnora impactul supra algoritmilor şi 
aplicaţiilor, mai ales că acestea din urmă reprezintă forţacare propulsează 
cererea continuă pentru o putere de calcul mai mare. 

În introducerea acestui volum am văzut că viteza de calcul creşte 
în medie de 10 ori la fiecare 5 ani (vezi fig. 1.1). Această evoluţie se dato- 
rează solicitărilor formulate de utilizatori şi nu există nici un motiv care 
să o modifice. De fapt, cererea pentru o viteză de calcul mai mare este în 
creştere. Departamentul apărării al S.U.A. a lansat un program pentru 
dezvoltarea unor procesoare VLSI care să execute 3 x 10? op./s (Sumney 
1980). Alte aplicaţii importante solicită la rîndul lor o viteză de calcul 
mai mare (Sugarman 1980) multe din ele fiind importante pentru modul 
nostru de viaţă (de exemplu, modelarea resurselor de energie, vreme şi 
climă, sau tomografie). 

Ca toate realizările noi, utilizarea, paralelismului în sistemele de calcul 
s-a inregistrat la cele mai avansate produse oferite pe piaţă. Calculatoarele 
ştiinţifice mari sau supercalculatoare, cum sînt acum denumite, sint costi- 
sitoare, dar au performanţele actuale cele mai mari (în mod curent 500 
Mflop/s). Oricum, așa cum s-a întîmplat cu toate produsele rentabile, ele 
şi-au găsit nișe într-o piaţă mai largă și au început să fie folosite într-o 
gamă mult mai variată de aplicaţii. 

Aplicațiile care vor asigura în viitor piețe mai mari de desfacere s-au 
îndepărtat de domeniul științific şi al simulării și vor corespunde unor 
aspecte mult mai apropiate de viaţa oamenilor. De exemplu, sistemele 
expert şi aplicaţiile de baze de date vor fi utilizate mult mai frecvent. 
Proiectul japonez al generaţiei a cincea, proiectul britanic Alvey şi ES- 
PRIT al Pieței comune aparțin acestui domeniu de interes. Alte exemple 
sînt: interfețele „prietenoase”, care realizează înțelegerea limbajului 
natural şi comunicaţia prin voce; aplicaţiile de prelucrare a imaginilor, 
pentru birouri sau sisteme de automatizări ; aplicaţiile de prelucrare a sem- 
nalelor pentru sisteme ca cele de ghidare radio sau radar. 


o Le 


6.1 Caracterizare 


Progresele recente înregistrate de proiectarea circuitelor integrate 
în particular noile nivele de integrare posibile, vor permite implementarea 
multor idei noi privind aspectele arhitecturale. De asemenea, tehnologia 
este o componentă cheie a unora din parametrii definiți. În particular, 
performanţa specifică a unui calculator paralel, definită în $1.3.4 ca 
performanţa pe unitatea de paralelism, depinde foarte mult de tehnologie. 

n acest caz, influența cea mai mare o are viteza circuitelor. Aceasta poate 
£i măsurată în sistemele bine proiectate prin timpul de propagare pentru 
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o singură poartă, za. Influențe indirecte intervin în termeni de putere 
disipată, deoarece aceasta este un factor major ce determină densitatea și 
nivelele de integrare. 

Puterea consumată de o poartă, Pp, este formată dintr-o componenţă 
statică și una tranzitorie. În cazul unei porţi active numai „la cerere”, 
componenta statică este foarte mică și poarta consumă energie numai cînd 
comută,. De aceea, necesarul de energie va îi o funcţie de frecvenţa cea- 
sului. Alte circuite sînt „cu pierdere de sarcină” și în acest caz, compo- 
nenta tranzitorie este mică în comparaţie cu cea statică. Deoarece consumul 
de energie variază cu numărul de intrări comandate, de obicei se prezintă 
un consum de energie mediu. 


Pentru orice tehnologie va fi întotdeauna un compromis între puterea 
consumată. și timpul de propagare, deoarece circuitele vor comuta mai 
rapid dacă sînt comandate de curenți mai mari. Punctul de lucru de pe 
curba energie consumată-timp de propagare este uneori fixat în cursul 
procesului de producţie, sau poate fi modificat cu rezistenţe exterioare 
circuitului. Produsul za .Pp este un alt parametru asociat cu o anumită 
tehnologie și reprezintă. o măsură a energiei de comutație pentru o poartă, 
de exemplu 


Ess = Sa e Po» (6.1) 


Pentru a ilustra importanța parametrilor energie de comutație sau 
consum de energie, vom considera consumul de energie al unui singur circuit. 
În general, limita de putere consumată pentru un singur circuit integrat 
este de aproximativ 2W, deși aceasta poate fi cel puţin dublată în cazul unor 
circuite speciale şi posibil răcite cu un agent fluid. Dacă considerăm un 
consum de 2W pe circuit, cîte porţi pot fi integrate? În „cazul porţilor cu 
pierdere de sarcină aceasta este dată de ecuaţia (6.2), unde Fp este consumul 
de putere mediu pentru o poartă : 


N, <.2/P» (6.2) 


În celălalt caz, consumul de putere va depinde de frecvenţa de comutare 
medie pe poartă î.. Astfel, dacă considerăm două, tranziţii logice pe ciclu, 
valoarea limită a lui N, este furnizată de ecuaţia (6.3) 


N, < (ÉE)! (6.3) 


Frecvența medie de comutare va fi în general mai mică decit cea a siste- 
mului, deoarece nu toate porțile vor efectua tranziții la fiecare tact. Aceasta 
este important în special pentru tehnologia memoriilor, deoarece în acest 
caz numai cîteva celule sînt accesate în fiecare ciclu de memorie. Datorită 
dimensiunilor circuitului, celulele de memorie folosesc de obicei circuite 
cu pierdere de sarcină. În tab. 6.1 şi 6.2 se evidenţiază aceste relaţii. 


Mai sînt şi alte consideraţii care limitează numărul de porţi pe un 
singur circuit, cea mai evidentă fiind suprafaţa porţii. Suprafaţa porţii 
este un factor decisiv pentru costul circuitului, măsurind necesarul de 
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siliciu folosit în mod real ('siicon real estate’). Deoarece dimensiunile mi- 
nime ale dispozitivelor tind spre limita de 1 um, utilizarea suprafeţei este 
dominată mai mult de conexiuni, așa cum vom vedea ulterior. 

Avem în acest moment trei parametri care caracterizează o anumită 
tehnologie ; timpul de propagare pe poartă ~a, puterea disipată pe poartă. 
Po (sau energia, de comutare Es, = taPp) şi, în sfirşit, suprafaţa porţii. 

n cele ce urmează vom folosi acești parametri pentru aprecierea compa- 
rativă a tehnologiilor. De asemenea, vom arăta cum progresele înregis- 
trate de tehnicile de procesare vor influența aceşti parametri pentru o 
anumită, tehnologie. 

Tehnologiile pe care le analizăm aparțin la două categorii: circuite 
realizate cu tranzistori bipolari și circuite realizate cu tranzistoare cu efect 
de cimp, în particular MOSFET. În primul caz, circulaţia curentului se 
realizează în plan, în timp ce în cazul tehnologiei bipolare curenţii circulă 
şi pe direcţie verticală între regiunile dopate cu diverse impurități, aşa 
cum se arată în fig. 6.1. „Electronii liberi”! sînt reprezentaţi de impurități 
de tip n, în timp ce „golurile libere” sint create de impurități p. Golurile 
reprezintă absenţa electronilor, care se deplasează și creează curenţi în 
acelaşi mod cu electronii liberi dar, desigur, în direcţie opusă. Ele sînt, 
oricum, mai puţin mobile. Deoarece granițele între aceste regiuni pot fi 
controlate cu precizie mare (~ 0; um) în comparaţie cu dimensiunile 
planare (0,1 m), tehnologiile bipolare tind să fie mai rapide. Circuitele 
realizate sint însă mai complexe. | 

Între aceste două categorii se află multe tehnologii diferite, funcţie 
de circuite, materiale și caracteristicile de procesare. De exemplu, multe 
din tehnologiile experimentale se bazează pe noi modalităţi de prelucrare. 
Acestea, reduc dimensiunea dispozitivului şi, prin urmare, reduc putere 
consumată și cresc viteza. 


Tabelul 6,1 Nivele posibile de integrare pentru energii diferite de comutare și frecvențe de ceas 
pentru tehnologia porţii „la cerere”. 


| Es (PJ) 

fe (MH: 

a Me i ı | vv | 10 102 | 102 
10-2 | 108 107 106 105 1w | a0a 
1 107 10° 105 104 102 102 
10 10° 105 104 102 102 10 
102 105 10% 102 102 10 1 
10° 104 102 10 10 1 = 
VLSI LSI MISI ssI 


Tabelul 6.2 Nivele posibile de integrare pentru tehnologia porții „cu pierdere de sarcină” ca o func- 
ție de putere medie disipată pe poartă. 


P(mW) 200 20 2 0,2 0,02 
Ng 10 102 103 105 104 
SSI MSI LSI VLSI 
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TR IE, | 6.2 Tehnologii bipolare 
B i : 

(o) hot Fel; M a (TTL, ECL, FL) 

Base Emitter electrodă) 


Cele trei tehnologii bipolare 
majore sînt transistor-trangis- 
tor-logic (TTL), emitter coupled 
Controlled current logic (ECL) şi integrated injec- 

tion logic (I'L). Uneori ECL mai 

este denumită și current mode 
Collector logic (CML), iar TPL merged 
transistor logic (MTL). 

Primul circuit integrat rea- 


p - 
n-type impurities 


(b) i insulating lizat a fost TTL. În anul 1964, 
i Gate oxide Texas Instruments a anunțat 
tenniroiing l prima familiede circuite TTL. 

aiii electrode) Drain NAND este poarta elementară, 


care lucrează cu nivele de ten- 
siune de 0 și 2 V, pentru valorile 
logice 0, respectiv 1. TTL este 
: led t lentă şi consumă multă energie ; 
Controlled curren! de aceea, acum este depășită. To- 
Fig. 6.1 Secţiune tramsversală prin doi tranzistori de tUşi, se mai folosesc seriile TTL, 
comutare elementari : (a) tranzistorul bipolar; (b) denumite Schottky TTL,low-pos- 
MOSFET wer Schottky TTL şi FAST, în 

aplicații pe scară mică/medie. 

Piața circuitelor TTL este în declin ; tehnologiile care se impun oferă 
circuite proiectate conform prescriptiilor cumpărătorului (customisable 
chips), care au o densitate mare de integrare. O soluție ieftină o reprezintă 
PAL, masiv logic programabil (field programmable logic array), îng oris 
într-o manieră similară circuitelor EPROM. Dacă sînt necesare circuite 
mai complexe, piața circuitelor de tip masiv poate oferi soluția. Acestea 
sînt circuite produse special pentru anumiți cumpärători (user-customi- 
sable), de obicei în tehnologie CMOS, dar şi bipolară, care permite ca 
ultima etapă de fabricare să se realizeze conform specificațiilor utiliza- 
torului. Aceste circuite conțin 500—20 000 porţi logice, aranjate într-o 
structură regulată de masiv, iar funcțiile cerute de utilizator sînt create prin 
conexiuni metalice între porțile corespunzătoare. De obicei, acest proces 
se realizează automat şi se poate executa după o schemă elaborată de 
calculator. Șabloamele de conectare pot fi implementate foarte rapid 
folosind fluxuri de electroni. Ansamblul acestor tehnici este ieftin şi cel 
puţin o companie îşi oferă serviciile în această direcţie la preţul de citeva 
sute de lire sterline. 

O altă familie de circuite logice bipolare este ECL, cea la care tran- 
zistorii nu intră în regim de saturație. Circuitul de bază ECL este inver- 
sorul. Acesta poate fi folosit pentru crearea porții duale OR/NOR. Valorile 
logice 0 şi 1 sînt reprezentate de —1,7 V şi —0,8 V. Adesea circuitele 
ECL sînt produse pentru a respecta anumite condiţii. Aceasta nu înseamnă 
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că circuitele vor fi realizate în întregime conform specificaţiilor benefi- 
ciarului, deoarece tehnologia masivelor de porți OR/NOR. este acum 
standard. 

Principalul avantaj al tehnologiei ECL este timpul de propagare pe 
poartă foarte mic, care poate fi de 100 ps. Alt avantaj este fan-out-ul mare 
pentru care totuși se plăteşte o penalitate prin scăderea vitezei. Dezavan- 
tajele sint consumul mare de energie, în jur de 1mW pe poartă pentr 
timpi de propagare sub ns şi suprafaţa relativ mare a porții (>> 300 um?). 
De aceea, în mod obişnuit ECL nu este un candidat bun pentru circuitele 
LSI. Capsulele obișnuite conţin în jur de 1000 porți. 


6.3 Tehnologii MOS (NMOS și CMOS) 


'Tranzistorul cu efect de cîmp (FET) este un dispozitiv relativ simplu 
(fig. 6.1 (b),, în care un cîmp generat de un electrod al porţii controlează, 
circulaţia curentului într-un canal între sursă și drenă. Cel mai obișnuit 
FET este denumit MOSFET, după electrodul porții care are ostructură 
sandwich metal-oxid-semiconductor. De curînd, metalul a fost înlocuit, de 
polysilicon ceea ce face să fie posibil un al doilea nivel de interconectare, 
Canalul este format fie din sarcini n, fie p, de unde tehnologia rezultată 
NMOS, sau PMOS. Deşi NMOS se mai utilizează încă, a treia tehnologie 
MOS importantă foloseşte atît tranzistoare NMOS cît şi PMOS. Această, 
tehnologie numită CMOS este convenabilă pentru implementarea VLSI 
şi are proprietăţi de disipare a energiei foarte favorabile. 

Avantajele principale ale tuturor tehnologiilor MOS sint modali- 
tăţile de producere relativ simple și densităţile mari de integrare. Astfel, 
MOS a fost folosit aproape exclusiv pentru aplicaţiile LSI, furnizind pro- 
duse foarte ieftine (de exemplu, microprocesoare și circuite de memorie 
de mare capacitate). Dezavantajul circuitelor MOS este viteza de lucru 
scăzută , deși, în acest domeniu se lucrează intens. Circuitele CMOS obig- 
nuite vor lucra la aproximati 20—40 MHz. 

Poarta elementară NMOS este inversorul, care folosește numai doi 
tranzistori, din care unul este întotdeauna deschis. Astiel, acest circuit 
lucrează ca o rezistență cu valoare fixă mare, în timp ce al doilea lucrează 
ca un comutator (fig. 6.2). Modul de lucru al porţii este simplu : cele două 
tranzistoare reprezintă o reţea de rezistenţe, ce divizează tensiunea între 
sursă şi masă. Cînd T, este deschis (Va œ% 5V), Vow are aproximativ 
valoarea nulă (Vow 2 0V) şi reciproc. Cu ajutorul unor perechi de tran- 
zistori de comutație (T,, şi T.p) conectaţi fie în serie, fie în paralel la masă 
(fig. 6.3) se pot construi porți NAND și NOR. 

Datorită valorilor mari ale rezistenţelor, tehnologiile MOS consumă 
foarte puţină energie. De exemplu, cînd Ta este deschis (Vu a 5V), Tezis- 
tența totală dintre sursă şi masă este în mod obișnuit de 100 kQ. Astfel, 
pentru o sursă de 5V 


Po = 0,25 mW 
iar cînd T; este închis 
Po = 2,5 nW 


36—c. 702 
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Se observă, în acest mod, că porţile NMOS consumă o cantitate 'semni- 
ficativă de energie numai când ieșirea lor este „low” ; nici virturile de putere 
tranzitorii nu sint semnificative. 


„su Fig. 6.2 Circuitul unui inversor MOS 
T d P ` 
i > 
T E S 
T, tatways ant R=100RN 
V 
č sai -Rzihka y 
in | aftr: R=1002 


te) .5V bi 


Fig. 6.3 Combinarea tranzistorilor MOS pentru realizarea 
funcţiilor logice duale (a) poarta NAND; (b) poarta NOR. 


Densitatea circuitului NMOS cu porţi inversoare ce respectă regula 
2 um este de aproximativ 25000 porţi pe mm? funcţie de geometria 
inversorului, dar în practică această valoare este rar întilnită. 

La circuitele NMOS există o asimetrie între timpii de ridicare şi 
cădere, datorită tranzistorului T, care lucrează ca o rezistență pasivă. 
Căderea semnalului este activă şi necesită în mod obișnuit 1—5 ns, în 
timp ce creșterea, semnalului este pasivă şi durează 4—20 ns. Fenomenul 
este prezentat în fig. 6.5 (a), unde se arată caracteristicile tensiunii tran- 
zitorii şi a curentului. (Observaţie : timpul de propagare este foarte sen- 
sibil la încărcarea porţii, la tehnologiile MOS : valorile prezentate se referă 
la porţi încărcate corect). . 

Tehnologia CMOS evită timpii lungi de stabilire a semnalelor. Deoarece 
PMOS are polaritatea opusă lui NMOS, dispozitivele respective pot fi 
folosite în perechi complementare pentru a forma porțile inversoare ele- 
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mentare (vezi fig. 6.4 (a)). Se formează un inversor aproape simetric (există 
diferenţe în mobilitatea purtătorilor) în care numai o poartă este activă 
la un moment dat. Porţile NAND şi NOR sint construite folosind două 
perechi complementare de tranzistoare. Poarta NAND, arătată în fig. 6.4(b) 


k) 3 > ape 5V) 
E LD 
| F sla, e | 
v — Y g } „7 su, 
| s | i o mr 
n TI 3 ` " T 
1 ci > 
> 2 Pij 4160. 7 
To oea | 
=F al f issar aar Tori 
ei an 
lb) lso 
—42 m p h A ENRETE 
er Te TA i F 
AE a t 2 l 2 3 k | ja 250 Ş 
e š > 2 |i ` h K : 
Ă | 
| 1 1+ 4 z H 
iu o A ERE „i n. IDEA 
= 0 7 ', 6 fs) 9 2 
j T:ne + 
Fig. 6.4 Circuite logice complementare Fig. 6.5 Caracierislicile dinamice ale porlilor de 
MOS (CMOS): (a) inversorul, (b) comutare MOSFET: (a) NMOS ; (b) CMOS. Curba 
poarta NAND întreruptă Vout» curbele pline Ipp 


folosește tranzistori de tip p în paralel şi de tip n în serie. Poarta NOR 
este construită cu tranzistoare p în serie şi de tip n în paralel. 


O altă caracteristică atractivă a tehnologiei CMOS este că se consumă 
curent numai la comutare (fig. 6.5) (b). Aceasta se verifică ușor deoarece 
la orice pereche complementară un dispozitiv este întotdeauna inactiv. 
Astfel, consumul de energie va fi o funcţie de frecvenţă medie a ceasului. 
Acesta, este un mare avantaj pentru tehnologia memoriilor, unde circuitele 
NMOS obişnuite ating bariera termică de aproximativ 1—2W (Wollesen 
1980). CMOS este caracterizată de densități de integrare mai mici decit 
NMOS şi este un proces mai costisitor. Totuşi, CMOS este acum mai 
competitivă şi a devenit tehnologia preferată a anilor 1980. 


Un dezavantaj al tuturor proceselor MOS, care nu este specific dis- 
pozitivelor bipolare, este că nu pot funcționa la cald. La o creştere peste 
100°C, dispozitivele MOS își scad viteza cu un factor de doi. Deci, tehno- 
logiile MOS sînt mai mult limitate de puterea disipată de o capsulă de 
1—2W, decît tehnologiile bipolare. 
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6.4 Tehnologii de scalare 


Calculatoarele paralele, în special cele cu replicarea resurselor, cores- 
pund foarte bine revoluţiei continue care are loc în industria microelectro- 
nică. Integrarea pe scară foarte largă (VLSI), cu 105 sau chiar 10° porţi 
pe un singur circuit, este acum ceva obișnuit, iar tehnologia marchează 
noi progrese în domeniul facilităților de procesare, in special în privinţa 
imprimării sau „serierii” circuitelor pe feliile de siliciu. 

Efectele micșorării dimensiunilor dispozitivelor au fost un subiect 
de mare interes şi, pentru tranzistoarele MOS, se cunosc reguli care menţin 
proprietăţile dispozitivelor (Dennard et al 1974, Hoeneisen şi Mead 1972). 
Pentru un factor de scalare de k (> 1), dacă toate distanţele orizontale 
şi verticale sînt micşorate de 1/k ori, la felnivelele de dopare, atunci 
utilizind nivele de tensiune micşorate de 1/k ori, şi caracteristicile dispo- 
zitivelor se vor micşora conform tabelei 6.3 (Hayes 1980). 


Așa cum am văzut, este de dorit să se micşoreze timpii de propagare, 
dar cu efectul creșterii puterii disipate. Aplicînd regulile de scalare, timpul 
de propagare se micşorează de 1/k ori, iar puterea consumată de 1/k? ori, 
ambele efecte fiind foarte favorabile. Observăm că densitatea de integrare 
creşte de 1/k? ori, iar densitatea puterii rămîne aceaşi. Astfel este posibil 
să se crească densitatea, de integrare prin scalarea dispozitivelor, fără a se 
atinge bariera energiei termice disipate. 

Scalarea pune şi probleme, deoarece densitatea curentului creşte 
printr-un factor de E, ceea ce poate influența fiabilitatea capsulei. Dacă 
densitatea curentului devine prea mare, şi conexiunile metalice vor trebui 
să aibă o suprafață mai mare. Alte probleme intervin datorită micșorării 
tensiunilor, şi în mod corespunzător a diferenţei între nivelele logice. Nive- 
lele de zgomot rămîn constante datorită energiei termice a particulelor 
discrete, ceea ce poate constitui o problemă critică. Micșorarea dispozi- 
tivelor, fără scăderea corespunzătoare a tensiunilor conduce la o creștere de 
k? a densităţii puterii. 


Tabelul 8.3 Factori de sealare caracteristici pentru o tehnologie MOS, căreia i se aplică factorul de 
scalare K~! după dimensiunile orizontală şi verticală, ca şi tensiunilor, şi cu densitatea impurită= 
ilor micşorată de K ori. 


Caracteristica Factorul de scalare 

Curentul I K- 
Timp de propagare ta K- 
Puterea disipată Py K 
Produsul zaPDp K-3 
Rezistența R K 

Densitatea curentului J K 

Densitatea de încapsulare K- 
Densitatea de putere 1 
Factorul IR 1 
Constanta RC “ 1 
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O ultimă problemă privind micşorarea dimensiunilor dispozitivelor 
intervine prin creșterea dimensiunii relative şi a întirzierii de propagare 
relativă a dispozitivelor care comunică cu mediul extern. De aceea, întregul 
beneficiu al scalării poate fi regăsit în interiorul capsulei, iar atunci cînd 
se transmit semnale în exterior el se micşorează. 

Deşi scalarea. este foarte atractivă, şi pare a fi nelimitată, există anu- 
mite limitări fundamentale datorită naturii fizice a dispozitivelor. Mead 
şi Conway (1980) tratează în detaliu aceste aspecte. În practică nu se tinde 
spre atingerea lor, atît timp cît dimensiunile nu scad sub 0.5 um. 

Prin contrast, scalarea tranzistorilor bipolari nu este nici atit de rigu- 
roasă, nici atit de bine definită. Tranzistorii bipolari pot fi micșoraţi fără 
a modifica a treia dimensiune ; într-adevăr, cu tehnologiile existente este 
foarte dificil de micșorat și această dimensiune. Deoarece timpii tranzistorii 
depind la tranzistorii bipolari de dimensiunea verticală, timpul de propa- 
gare ECL nu se va micșora liniar odată cu dimensiunile planare. O reducere 
se va înregistra, datorită efectelor capacitive, iar micșorarea puterii va fi 
similară cu cea de la dispozitivele MOS. 

O tratare a simulării scalarii atit a dispozitivelor bipolare, cît şi MOS, 
a realizat Hart et al (1979). Rezultatele obţinute de ei sînt prezentate în 
fig. 6.6 şi 6.7. Dispozitive submicronice experimentale confirmă rezultatele 
simularilor (de exemplu, Fang și Rupprecht 1975, Sakai et al 1979). Cît 
de curind se vor produce aceste dispozitive, este mai dificil de răspuns. 
Regulile de scalare aparent simple presupun îmbunătăţiri ale tehnologiilor 
de prelucrare şi există o mare diferenţă între obţinerea experimentală şi în 
producţie a unor astfel de dispozitive VLSI. 


6.5 Problemele puse de scalare 


Am văzut în capitolele 2, 3 şi 3 că atit la proiectarea calculatoarelor, 
<it şi a algoritmilor o problemă majoră este cea a comunicării. Şi în secţiunea 
anterioară am făcut unele aluzii la problemele de comunicaţie ce apar la 
nivelul capsulei. Cu alte cuvinte, problema comunicaţiei nu este ceva care 
să dispară automat prin folosirea baghetei magice reprezentată de tehno- 
logia VLSI; accentul ei este mai degrabă deplasat de la nivelul sistemului 
la cel microelectronic. În acest mod, comunicația rămîne cheia unui proiect 
de calculator reuşit. l 

Comunicația este, într-un calculator electronice digital, propagarea 
unor semnale electrice de frecvență mare, de-a lungul unor fire sau circuite 
imprimate, sau prin structurile de siliciu dopat cu impurități. Faptul că 
aceste semnale se propagă într-un interval de timp finit între diversele 
componente ale unui calculator, și că acest interval poate fi semnificativ, 
a fost descoperit încă de la primele proiecte MU. Universitatea Manchester 
(MU) a întâlnit probleme serioase la construirea primului calculator ATLAS, 
De atunci structura fizică a calculatorului a devenit din ce în ce mai impor- 
tantă şi este acum un aspect important al proiectării. 


ORAY-1 rezuma această limită de proiectare deoarece toate aspectele 
mașinii sint proiectate în sensul minimizării şi egalizării timpului de pro- 
pagare. Caracteristica cea mai evidentă este forma izbitor de neobişnuită, 
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Tats) 


Dimensiunea minimă (ym) 
Fig. 6.6 Simularea scalării timpului de propa- 
gare pe o poartă pentru ECL, I'L şi diverse 
tehnologii MOS (date luate din lucrarea lui 
Hart et al 1979). 
== 
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Fig. 6.8 Reducerea lungimii conexiunilor, folo- 


sind o organizare de suprafață constantă 
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OT Dimenziunea miami 
Fig. 6.7 Simularea sealării produsului 
putere timp de propagare pe poartă 
pentru ECL, IL și diverse tehnologii 
MOS (după Hart et al 1979). 


a carcasei (vezi fig. 2.1). Aceasta 
poate fi considerată o transiormare 
topologică a-unei carcase paraleli- 
pidedice pentru a; reduce lungimea 
firelor de legătură. Fig. 6.8 prezintă 
o transformare de arie egală a 
suprafeţei carcasei calculatorului 
CRAY. Se poate observa că o 
dimensiune a planului de conexi- 
uni s-a redus la jumătate. Forma 
ideală este cea sferică, cu simetrie 
completă care minimizează lun- 
gimea, conexiunilor electrice. Pro- 
babil CRAY-2 va avea această 
formă! 

Alte caracteristici ale calcula- 
torului CRAY-1 care minimizează 


timpul de propagare sînt liniile de transmisie terminate cu rezistențe și densi- 
tățile de integrare pe capsulă extrem de ridicate. Datorită lor se pun pro- 
bleme deosebite de răcire, mai mult de 100 kW de putere disipată termic 
trebuie eliminată dintr-un volum de aproximativ 34 m?. Pentru a înțelege 
amploarea problemei, să ne închipuim un element electrice de 1 kW 
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aflat într-un recipient de cositor care trebuie menținut la temperatura 
camerei. Chiar şi în aceste condiţii asigurate de sistemul de răcire, 50% 
din perioada ceasului de 12,5 ns este urmare a timpilor de propagare. 

Pentru a înţelege problemele de scalare, să considerăm că: într-o 
linie de transmisie perfectă semnalele se propagă cu viteza luminii, 952 x 
10% pic/s, ceva sub 1 pic/ns În practică, liniile de transmisie au o anumită, 
capacitate. şi rezistența, de aceea viteza de propagare a semnalelor va fi 


mai mică. Pentru o reţea RC, propagarea semnalelor este descrisă de 
ecuaţia de difuzie : 


jos a (6.4) 


unde R şi C sint rezistenţa şi capacitatea pe unitate de lungime. Timpul 
de propagare variază pătratic cu lungimea pentru R şi C constante, si- 
tuaţie caracteristică propagării semnalelor în interiorul capsulei. 

Revenind la tabelul 6.3, observăm că, deși întirzierea RC rămine 
constantă în cursul scalării, rezultatul se bazează pe micșorarea lungimii 
conexiunilor electrice. Este raţional să presupunem păstrarea dimensiu- 
nilor capsulei, pentru a culege roadele densităţii de integrare sporite. 
În această situaţie distanţele vor fi relativ mai mari, cu rezultatul că 
traseele electrice din capsulă vor fi mai lente decit factorul de k?, folosind 
aceleaşi caracteristici de curent. Într-adevăr, situaţia este chiar mai rea, 
deoarece acest timp trebuie comparat acum cu timpul de propagare pentru 
poartă mai mic, sealat de k-! ori, rezultind o degradare totală de k? ori a 
timpului pentru întreaga conexiune electrică. Deşi efectele nefavorabile 
aie micsorării dimensiunii abia se pot întrezări, este probabil că acest factor 
va avea un efect important asupra proiectelor de sisteme ce vor folosi 
noile tehnologii. Ele vor fi extrem de rapide la nivel local, dar tot mai lente 
la nivel global sau în exteriorul capsulelor. Să discutăm acum implicaţiile 
lor, -. 

Cu îmbunătăţirea tehnicilor de prelucrare, tot mai multe funcţii sint 
integrate pe un singur cip, iar factorii de scalare descriși mai înainte au 
un efect tot mai important asupra arhitecturilor implementate şi metodo- 
logiilor de proiectare. Problemele care trebuie depășite includ : 

a) creşterea efortului de proiectare ; 

b) timpi de propagare pe conexiuni mai mari ; 

c) densitate mai mare de conexiuni ; 

d) discrepanţă între performanţele din interiorul și exteriorul capsu- 
lelor. 

Ultima situaţie intervine datorită modului de comunicare cù mediul 
extern prin suduri (pads), pini şi trasee electrice. Apare o discrepanţă 
între performanța din interiorul capsulei și cea din exteriorul ei. Circuitele 
din interiorul capsulei pot lucra cu o frecvenţă de 25—50 MHz, dar este 
dificil să se păstreze această frecvenţă la conexiunile externe, fără a creşte 
curenții folosiţi. | 

Densitatea conexiunilor poate fi ilustrată prin considerarea efectelor 
scalării asupra interconectării unor module abstracte din interiorul capsu- 
lei. Dacă presupunem utilizarea aceleiași scalări ca și în cazul parametrilor 
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electrici, se pot obţine k? mai multe module pentru o complexitate dată. 
a capsulei. Dacă presupunem că fiecare modul este conectat la toate cele- 
lalte, atunci pentru n module sint necesare m? conexiuni. Circuitul micsorat 
necesită (nk?)? conexiuni rezultind o creștere de k* a densităţii conexiunilor 
pentru o creștere de k? a densităţii de module. Aceasta este, evident, o 
situaţie mai dificilă, deoarece, în general, modulele nu vor fi complet 
interconectate. Cea mai bună situaţie, cînd se păstrează un echilibru între 
conexiuni şi densitatea porţilor, va fi aceea cînd este necesar să se inter- 
conecteze fiecare modul la un singur alt modul. Aşa cum s-a mai. men- 
ționat, problema comunicaţiilor trebuie distribuită între nivelul sistemului 
şi nivelele de integrare ; rețeaua liniară care se va obţine va fi adecvată 
numai pentru citeva aplicaţii (vezi $3.3). Această problemă majoră influ- 
enţează stilurile diferite de proiectare și arhitecturile în sensul rezolvării 
sau ameliorării ei. Soluţiile, ea în cele mai multe probleme inginereşti, 
constau în abordarea problemei pe toate fronturile, inclusiv (de exemplu) 
prin introducerea unor noi modalități de interconectare: prin tibre optice 
(Goodman et al 1984). 


Din punctul de vedere al proieetăr irii se pot găsi modalități care să fie 
folosite atit la nivelul sistemului, cit gi al capsulelor. La nivelul caprulelor, 
se pot folosi structuri regulate mari de porţi, care elimină problemele ridi- 
cate de densitatea, conexiunilor. Dimensiunea modulului crește, iar densi- 
tatea se ameliorează. prin folosirea unei reţele regulate de conexiuni locale. 
Iată exemple: RAM; ROM; PLA; masive de comutatoare; matrici de 
porți. 

Fig. 6.9 care prezintă două microprocesoare, unul din primele şi 
unul modern, ilustrează cele discutate. La primul, modulul este repre- 
zentat de poartă, iar funcţiile sint. implementate aleatoriu, în modalitatea 
de lucru cu circuitele TTL. La ultimul, structurarea este mult mai evi- 
dentă, incluzind blocuri RAM, RON şi căi de date regulate în interiorul 
ALU. 


Desi RAM si ROM sînt structuri ideale pentru VLSI, datorită formei 
lor regulate, numai cu RAM se pot executa puține operaţii : axhitecturile 
de procesoare care exploatează de asemenea această structură, regulată și 
fină sînt candidaţi buni pentru circuitele VLSI. Corespunzător. putem 
folosi la, nivelul sistemului aceste tehnici care creează structuri regulate, 
de preferinţă locale. Modalităţile de calcul pipeline şi prin multiplicare au 
fost analizate pe larg, pentru creșterea, performanței masinii fără a folosi 
circuite cu viteze mai mari. De aceea este avantajos să le considerăm acum 
prin prisma unor structuri regulate cu comunicaţii locale. Fig. 6.10 pre- 
zintă o cale de date pipeline, “nde se pot observa că registrele introduse 
pentru memorarea rezultatelor parțiale creează regiuni temporale locale, 
în locul uneia generale. Semnalele de ceas necesare pentru sincronizarea 
circulației datelor prin pipeline sînt în continuare semnale generale; 
oricum întirzierea cu care se propagă nu prejudiciază funcționarea sis- 
temului, avînd în vedere că timpii de propagare la module diferite pot 
fi egalizați. Dacă este necesar, sistemul poate lucra asincron, sau cu sin- 
cronizare locală, prin stabilirea unei modalități de preluare a datelor 
între etaje. Între modulele adiacente se va implementa un protocol de 
handshake. În $ 4.5.2 se descrie tehnica de programare cu pipeline asincron- 
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Fig. 6.11 prezintă structura, la nivelul cipului a unui masiv de pro- 
cesoare tipic, care foloseşte pentru creșterea performanțelor principiul 
multiplicării. Din nou se poate, observa că s-au ales între modulele maltiple 
conexiuni care să reflecte natura planară a mediului și deci locală. Aceleaşi 


Fig. 6.10 O diagramă ce compară un ALU 

convenţional (a) cu un ALU pipeline (b). Se: 

observă că ultima are comunicaţii distri- 
bunite local. 
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Fig. 6.11 Diagrama ce ilustrează structura și comunicațiile regulate 
locale ale unui element procesor RPA. 


argumente privind controlul se aplică și structurilor de masive de proce- 
soare. Se poate folosi un sistem sincron, în care caz impulsurile și chiar 
cuvintul de control vor fi furnizate de o sursă unică. Altă modalitate este 
ca sistemul să fie cu control local, în care caz fiecare procesor va avea pro- 
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priul ceas şi mediu de memorare local. Prima. soluţie este tipică pentru 
calculatoarele SIMD, iar ultima ar corespunde mai multor transputere 
realizate pe o capsulă. INMOS a abordat astfel de soluţii, care ar putea 
fi generate automat de către un silicon compiler plecînd de la programe 
scrise în OCCAM (Martin 1936). 


6.6 Repartizarea sistemului 


„Pare ironic că problemele întilniie în proiectele de sisteme VLSI par 
să reflecte pe cele din societate. Capsulele evoluează rapid într-o societate 
cu două clase — în sistemele cu multe capsule VLSI există privilegiați 
care poi comunica local sau în interiorul capsulei şi nevoiaşi, care folo- 
sesc comunicaţii lente, în exteriorul capsulei. Datorită acestor inegalităţi 
repartizarea unui sistem devine foarte importantă. Cînd se distribuie un 
sistem pe circuite integrate, există trei considerente importante. Acestea, 
sint structura fiecărui circuit, pinii capsulei și puterea disipată. De ase- 
menez, problemele privind discrepanța dintre performanţă în interiorul 
şi exteriorul capsulei vor influenţa modul de repartizare. Punctele de 
comunicaţie maximă trebuie menținute în interiorul capsulei. 

Este interesant de observat că circuitele celor mai multe firme pro- 
ducătoare păstrează punctul de comunicaţie maximă în exteriorul capsu- 
elor, crescînd complexitatea sistemului tocmai prin încercările de a mini- 
miza lărgimea. de bandă, care poate provoca strangulări. Evident este 
vorba, de. interfața procesor-memorie, prin intermediul căreia se transmit 
codul şi datele în toate sistemele cu microprocesor. Soluţiile complexe 
includ. memorii cache în interiorul capsulelor, pre-încărcarea instrucţiunilor 
şi execuţia lor pipeline, sau seturi de instrucţiuni mai complexe. De ase- 
menea,:pot exista excepții, care implică integrarea funcţiilor de memorare 
şi prelucrare -pe aceeasi capsulă, o încercare deliberată de a reduce com- 
plexitatea care nu este necesară. Un exemplu bun în acest sens îl oferă 
iranaputerul INMOS, descris în $ 3.5.5. 


6.0.1 Structura 


Idealul este de a integra întregul sistem pe o singură capsulă, deoarece 
altfel comunicațiile externe sînt lente, consumă multă energie, fiabilitatea, 
este inerent mai mică și ocupă un volum mare. Totuși, în cursul prelucrării 
cristalului de siliciu se produc defecte care pot determina o funcţionare 
defectuoasă a circuitelor. Aceste defecte includ : 

(a) defecte în cristal; 

(b) defecte ale măsștilor folosite ; 

(c) defecte introduse în timpul prelucrării (de exemplu, particule 
străine) ; 

(d) defecte introduse în cursul manipulărilor ; 

(e) defecte introduse de prelucrările necorespunzătoare (de exemplu, 
subtierea metalului) ; 

(£) găuri mici între straturi ; 

(g) defecte produse cristalului în cursul prelucrării, 
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Datorită prezenţei acestor defecte, numai o parte dintr-un cristal 
(wafer) prelucrat; va fi complet funcţional (presupunind o proiectare 
corectă). De exemplu, să considerăm un cristal de 3 inch cu 100 capsule 
fabricate într-o tehnologie MOS. O structură tipică pentru astfel de cris- 
tale ar fi de aproximativ 30%, implicînd o medie de 30 capsule funcţionat 
corecte pentru un cristal. De obicei se presupune că defectele ce intervin 
sînt distribuite aleatoriu și cuantiticate ca număr pe cm2. În cursul ultimilor 
20 de ani s-au obținut progrese importante în tehnologia camerelor pure, 
a echipamentului folosit, materialelor și măştilor. În consecinţă, se pot 
produce acum structuri rezonabile care pot ocupa chiar peste 1 em? 

Modelul cel mai simplu presupune o distribuire aleatoare a defectelor 
și, mai mult, se consideră că un singur defect aflat oriunde va determina 
defectarea, capsulei. În acest caz, probabilitatea de a găsi defecte pe o 
anumită capsulă se poate calcula cu distribuţia Poisson pe baza parame- 
trilor D (densitatea defectelor) si A (aria capsulei). Folosind statistica 
Poisson, probabilitatea ca o capsulă să fie bună este 


P(D, A) = exp (—DA) 


Acest model nu reflectă. cu acuratețe comportarea reală a procesului 
de fabricație, desi reprezintă o aproximare bună a regiunii corespunzătoare 
structurilor foarte mici. Capsule cu o suprafaţă de mai multe ordine 1/D, 
vor avea o probabilitate extrem de mică de a nu conţine nici un defect, 
Pentru a produce structuri rezonabile, trebuie ca suprafaţa să fie men- 
ținută la cîteva ordine 1/D. Pentru un proces bun, densitatea defectelor 
variază între 1 si 3 cm-2. Astfel, capsule de aproximativ 1 cm? vor asigura 
structuri modeste. 

În realitate defectele nu sint distribuite aleator, găsindu-se mult ma: 
multe defecte la periferia cristalului decit spre centru. De asemenea pre- 
supunerea că defectele pot îi modelate ca puncte nu este corectă, deoarece 
multe defecte sint: mari, în comparaţie cu dimensiunile capsulei. Acestea 
se numesc defecte de suprafată. Matematic, este mult mai ușor de lucrat 
cu puncte decit cu suprafeţe. I)efectele de suprafată pot îi modelate prin 
modificări ale funcției Poisson, considerind că suprafața conține un număr 
de puncte defecte. Prin urmare acest efect este modelat ca un ciorchine 
de defecte, iar distribuţia nu mai poate fi considerată aleatoare. Sistemul 
poate fi modelat printr-o superpoziţie de mai multe distribuții aleatoare. 
Punctul slab al modelului Poisson simplu este că defectele sint distribuite 
în urma mai multor etape de prelucrare, unele mai critice decit altele. De 
exemplu, un defect de mască la interfața metal 1 — metal 2 nu va fi 
fatală, dacă nu este inclusă în joncțiunea celor două metale. Evident, nu 
toate defectele vor provoca nefuneţionarea capsulei. 

Deși s-ar putea, ca, eliminarea completă a defectelor să fie imposibilă, 
se pot proiecta capsule care să funcționeze în prezența, nnor defecte. Aceste 
tehnici, tratate in § 6.7, permit fabricarea economică a unor capsule 
mai mari. Aceste tehnici s-au folosit cu succes la proiectarea memoriilor. 
Structura regulată a memoriilor furnizează scheme deosebit de eficiente 
pentru evitarea, defectelor introduse de procesul de producție. Bineînţeles, 
ținta, finală este de a ajunge în situația de a folosi un cristal pentru un 
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întreg sistem. La nivelele curente de complexitate, ar fi vorba de sisteme 
conținînd sute de milioane de porţi. În astfel de sisteme necesitatea mul- 
tiplicării este evidentă. 


6.6.2 Pinii capsulei 


O altă limitare a repartizării sistemelor este numărul de pini ai unui 
circuit integrat. Această limită este impusă de restricţiile privind puterea 
disipată și realizarea capsulei, şi contribuie la rindul ei la limitarea posibi- 
lităţilor de comunicaţie cu exteriorul. 

Prin urmare, o proiectare bună a unui circuit VLSI constă într-un 
sistem care își este intr-o mare măsură suficient și are cît mai puţine 
conexiuni la lumea externă. Totuşi, în acest mod se intră în conflict cu alte 
condiţii, de proiectare, pentru circuitele VLSI, ca acelea definite de par- 
tiţionarea, structurilor conectate în mod regulat, ca masivele de procesoare. 
Problema este că odată cu creșterea numărului de procesoare implementate, 
lărgimea, benzii de comunicaţie între capsule trebuie să crească. Această 
creştere poate varia fie cu suprafaţa procesoarelor incluse, ca în cazul 
conexiunilor la memorie externă aflate la capsulele SIMD, sau cu peri- 
metrul masivului. 


Conexiunile externe ale unei capsule sint costisitoare; sudurile me- 
talice din interiorul capsulei consumă o suprafaţă relativ mare, iar dimen- 
siunea unei suduri (100—150 um?) trebuie să rămînă constantă, indiferent 
de modificarea dimensiunilor circuitului. Și circuitele driver trebuie să-și 
păstreze dimensiunea. Sudurile consumă o cantitate mare de energie, 
ceea ce poate influenţa considerabil liniile de alimentare, dacă mai multe 
suduri își schimbă starea în același timp (ca la o magistrală, de exemplu). 
Capsulele mari sînt costisitoare, și ocupă o suprafață mare din placa 
logică. Deşi, tehnologiile de încapsulare asigură acum conexiuni de supra- 
față mică, densitatea pinilor face plăcile logice mai scumpe datorită 
straturilor suplimentare necesare pentru scăderea densităţii traseelor 
electrice. 

Capsula cu un singur circuit nu este singura limită ce intervine la 
partiționarea sistemului, deoarece în aceeași capsulă pot fi introduse mai 
multe circuite, Producătorii experimentează capsule care conţin hibrizi 
pentru uzul comercial. Ele au fost folosite în aplicaţii militare. Exemple 
sint stratul gros de ceramică și siliciul metalizat. Deși aceste tehnici sînt 
relativ noi și încă costisitoare, în comparaţie cu tehnologiile de încapsulare 
convenționale, oricum avantajele lor evidente vor determina dezvoltarea 
lor în continuare. 

Pentru realizarea unei repartizări bune a sistemului poate îi folosită 
teoria grafurilor. La un nivel de descriere dat, orice sistem poate fi definit 
cu un grai orientat, unde componentele sistemului sînt nodurile (porţi 
sau blocuri funcţionale), iar conexiunile reprezintă arcele graiului. O par- 
tiţionare bună împarte graful în subgrafuri, unde fiecare subgraf conține 
un grad înalt de conectivitate, iar graful format prin partiționare are un 
grad scăzut de conectivitate. 


477 


Situaţia nu este chiar atit de simplă, deoarece pentru nici un sistem 
nu există o singură implementare și există întotdeauna un număr de com- 
promisuri care se pot realiza pentru reducerea numărului de pini. De 
exemplu, semnalele pot fi codificate şi decodificate în interiorul capsulei, 
înaintea utilizării lor, la costul unui timp de întirziere suplimentar. De 
asemenea, se poate folosi un singur pin pentru multiplexarea în timp a 
mai multor semnale. 

Legătura INMOS implementată de transputer reprezintă un exemplu 
bun pentru un astfel de compromis. Transputerul are 4 legături de conectare 
la alte transputere, implementate ca o pereche de fire ce transmit un 
bait de date într-un pachet de 11 biţi. Legătura este bidirecţională şi 
poate transmite date și recepționa pachete în orice ordine. O mare supra- 
faţă din circuit a fost folosită pentru optimizarea vitezei de transmisie 
(20 MHz). Acesta este un bun compromis, deoarece o implementare paralelă, 
ar necesita cel puţin 10 fire pentru o legătură. Scalind aceste cifre cu un 
factor de 8, pentru a asigura cele patru legături bidirecţionale se realizează 
o diferenţă mare în numărul de pini. În acest mod, s-a micșorat viteza, 
în schimbul unei reduceri masive a numărului de pini și a suprafeţei uti- 
lizate, care nu este însă o resursă critică. 


6.6.3 Disiparea energici 


Ultima restricţie privind repartizarea sistemului se referă la puterea, 
disipată. Există o limită de 2 W pe capsulă, în cazul tehnologiilor de în- 
capsulare clasice, care folosesc plăci cu trasee imprimate și răcirea forțată 
cu aer. Sint necesare tehnologii de încapsulare mai sofisticate, care folosesc 
materiale „ceramice, tehnologie de imersiune în lichid etc. Toate acestea 
ridică însă costul sistemului. 

Tehnologia CMOS, care lucrează la temperaturi și tensiuni scăzute 
este ioarte rapidă, comparabilă acum cu ECL. Firma ETA construiește 
calculatoare cu masive de porţi VLSI CMOS, ce operează la temperatura 
hidrogenului lichid (77*K) şi tensiuni scăzute, Se obţin viteze de 100— 
200 MHZ. 

La orice sistem există o componentă de putere consumată dinamică 
(Pa), datorită încărcării capacitive şi care este proporționala cu numărul 
porților (N,), frecvenţa medie de lucru <f) şi tensiunea la care comută 
(Von): 


Pa = NE) 0Voo 


unde C este capacitatea sarcinii. 

Acesta este consumul important dintr-un circuit CMOS. În cazul 
tehnologiei NMOS mai există o componentă corespunzătoare tuturor por- 
ţilor în starea low. Ea este definită de 


Pa = Nl Vaa == Vou)/ Raep 


O valoare tipică pentru Rae & unui circuit NMOS este de aproxi- 
mativ 50 kQ, de unde se obţine un consum de putere de 0,1 mW pentru 
o singură poartă. 
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6.6.4 Tehnici pentru reducerea consumului de putere 


Există o serie de tehnici care pot fi folosite pentru reducerea consu- 
mulni de putere a unui circuit integrat. În general acestea se pot aplica 
mai uşor tehnologiilor cu pierdere de sarcină, cum este NMOS. 

(i) Prima tehnică constă în reducerea numărului de pini. Sudurile de 
conectare consumă o putere cu cîteva ordine de mărime mai mare decit 
porţile logice. Dacă numărul lor este mare, acest consum poate reprezenta 
un procent important din consumul total. 

(2) Sudurile pot fi proiectate astfel încît viriurile de putere care apar 
la tranziţii să fie minimizate. 

(3) O altă tehnică constă în folosirea, circuitelor logice dinamice, care 
nu posedă componenta de putere statică. În acest mod se reduce spaţiul 
folosit de sistemele CMOS, cu o reducere mică a consumului de putere. 
La NMOS consumul de putere se reduce însă semnificativ. 

(4) Există tehnici pentru reducerea pierderilor statice în sistemele 
NMOS, ca masivele de comutare cu tranzistoare, care nu consumă putere 
statică. Ele se pot folosi si în tehnologia CMOS, deşi ṣe preferă procesele n, 
deoarece dispozitivele cu canale n sînt cele „bune”, avind o modalitate 
mai mare. 


6.7 Integrarea pe un wafer 


Integrarea pe un wafer (WSI) constă în utilizarea unui întreg wafer 
procesat de siliciu pentru un singur sistem. Multe din dezavantajele re- 
marcate la scalarea tehnologiilor VLSI vor dispare (altele vor rămîne). 
Oricum pentru a folosi un circuit cu anumite defecte, trebuie adoptate 
tehnici speciale. 

Întotdeauna producătorii de circuite integrate au dorit de a plasa cît 
mai multe circuite pe o singură capsulă. Cele două sau trei ordine de mărime 
de creştere a complexității realizate în cursul ultimei decade în industria 
semiconduetorilor (Augarten 1983) s-au obţinut prin micşorarea dimen- 
siunilor circuitelor. Dimensiunile capsulelor au rămas mai mult sau mai 
puţin constante, la ceva sub 1 em?. Liderii industriali, și în principal 
producătorii de memorii, au folosit tehnici tolerante la defecte şi cu redun- 
danță pentru creşterea structurii implementate pe capsule mai mari. 
Prin utilizarea extensivă a redundanţei și relaxarea regulilor de proiectare 
în punctele critice, suprafaţa, circuitului poate fi mărită, pînă la ocuparea 
întregii suprafeţe a unui wafer. Prima, încercare de a realiza un astfel de 
circuit s-a făcut acum 20 de ani. În Marea Britanie Sinclair Research a 
lansat un proiect pentru studiul posibilităţii de realizare a circuitelor inte- 
grate pe un wafer. Acest proiect este continuat de compania Anamartic. 
Primele produse vor fi dispozitive de memorie de masă solid state (Poun- 
tain 1986b). Produsele ulterioare vor avea capabilități de procesare la 
nivelul memoriei ; acestea vor fi calculatoare paralele. 


Avantajele potenţiale ale circuitelor integrate pe un wafer sînt: 


(a) viteza mai mare datorită conexiunilor mai scurte și a încărcărilor 
mai mici; 
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(b) consum mai mic de putere datorită numărului mai mic de suduri ; 

(c) densitate mai mare a interconectărilor posibile ; 

(d) volum mai mic ; 

(e) fiabilitate mai mare datorită, manari mai mic de conexiuni 
mecanice ; 

(£) costuri mai mici ale sistemului. 

mpotriva acestora pot fi menţionate următoarele dezavantaje : 

(a) statistica asociată structurii realizate pledează împotriva unor 
circuite foarte mari ; 

(b) densități mai mari de putere; 

(c) dificultăţi de testare; 

(d) costurile configurației (poate fi necesară o procesare specială); 

(e; prototipuri mai lente şi mai costisitoare; 

(f) probleme la combinarea tehnologiilor ; 

(g) inadecvată pentru toate sistemele. 


Multe div dificultățile potenţiale ridicate de integrarea pe un wafer 
pot îi ameiiorate prin alegerea corectă a arhitecturii. Ev ident, acestea 
trebuie să fie regulate și multiplicate. 


6.7.1 Arhitectura pentru WSI 


Arhitecturile adecvate pentru WSI sint regulate, conţin citeva 
module cu un grad înalt de multiplicare şi conţin, în mod ideal, numai 
comunicaţii regulate locale. În acest mod se minimizează efortul 'de pro- 
iectare, un considerent major, iar efectele adverse ale micșorării lungimii 
conexiunilor sînt minimizate, Cîteva arhitecturi bune pentru WSI sînt 
memoriile, masivele sistolice şi masivele de procesoare. Dar, cit de bune 
sînt acestea pentru prelucrarea datelor? - 


(i) Memoria 


Memoria este o structură ideală pentru implementarea WSI. Este 
foarte regulată, constă din foarte puține module multiplicate (la memoria 
RAM dinamică, un tranzistor și un condensator și are interconexiuni re- 
gulate, linii pentru bit şi cuvint. De aceea, nu este surprinzător că sint 
produsele cele mai solicitate care exploatează redundanța. Deşi s-au 
întreprins mai multe experimente pentru realizarea circuitelor pe un 
wafer, numai micşorarea suprafeţei structurii a permis ca circuitele de 
memorie să aibă un succes comercial. Totuşi, acestea nu realizează pre- 
lucrări, iar disponibilitatea circuitelor de memorie a perpetuat arhitectura. 
von Neumann, cu unităţile ei separate de calcul, de control și memorie 


(ii) Masire sistolice 


Masivele sistolice sînt masive regulate de maşini simple cu un număr 
finit de stări (FSMS), unde starea unei mașini la un moment dat este comună 
întregului masiv. Denumirea provine de la termenul medical „sistolă”, 
folosit la descrierea inimii. Un algoritm sistolic prelucrează date ce ajung 
la celule pe direcţii diferite la intervale regulate de timp. Pot interveni şi 
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alte stări decit cele pentru controlul local al maşinii. Algoritmul ţine cont 
de poziţia datelor şi propagarea lor prin masiv. Deşi aceste maşini au o 
structură regulată şi conţin celule simple, ele nu execută calcule cu un grad 
prea mare de generalitate, sau cel puţin nu atît timp cît maşina cu stări 
finite nu devine o mașină cu program memorat. cînd se obţine un masiv 
de procesoare. Pentru mai multe informaţii vezi lucrarea lui Moore et 
al (1987). l 


(iii) Masive de procesoare e ia 


Cînd elementul care se multiplică este un calculator, și nu o mașină 
cu un număr finit de stări, structura poate fi numită masiv de procesoare. 
În sistemele de calcul cu multiplicare, cele mai importante aspecte sint 
legate de scalare (vezi capitolul 3). În timp ce un procesor care conţine 
numere mici poate comunica eficient prin magistrale ale sistemului sau 
memoria comună, în sistemele care folosese numere mai mari, seeven- 
ţialitatea, acestor metode produce strangulări. Apoi, proiectantul este 
obligat să considere sisteme unde datele sînt transmise între procesoare. 
Comutarea datelor are loc fie în cadrul unei reţele cu topologie fixă, unde 
distanţele cresc odată cu numărul procesoarelor implicate, fie într-o reţea 
programabilă, unde costurile comutatorului respectă o lege pătratică.. În 
aia, natura planară a mediului de conectare tinde să favorizeze o reţea 
planară. 


6.7.2 O trecere în revistă a tehnicilor 


Tehnicile folosite pentru creșterea suprafeţei circuitelor cu o structură 
adecvată se împart în două categorii — tehnicile tolerante la defecte şi 
cele cu redundanță. 


(i) Circuite tolerante la defecte 


Se pot proiecta circuitele pentru a tolera defecte, de obicei prin inclu- 
derea unor operatori redundanți în modul de lucru al circuitelor. În acest 
mod se pot detecta defecte sau combinații defectuoase, care sint mascate 
în cursul operării normale a circuitului. Aceste tehnici sînt de obicei costi- 
sitoare în termeni de suprafaţă şi nu sînt adecvate pentru ansamblul 
wafer-ului. Ele pot fi folosite pentru asigurarea integrităţii circuitelor critice 
prin adoptarea altor scheme. Un domeniu unde aceste tehnici sint foarte 
indicate este cel al circuitelor de memorie, unde se pot folosi operatori 
redundanţi pentru detectarea și corectarea unui singur bit eronat din orice 
cuvînt (unitate de protecţie) de memorie. Overhead-ul pentru aceasta este 

log,n);n, 50% pentru date de 8 biţi. 


vii) Redundanţa modular: 
Redundanţa modulară constă din duplicarea, triplarea sau multi- 


plicarea într-alt mod a unui circuit. Cu două circuite, dacă ele concordă la 
un set de teste, putem avea încredere că funcţionează corect . Structura 
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circuitului analizat a fost mieşorată. Cu circuite triple, dacă două dintre ele 
concordă, rezultatele furnizate de ele pot fi considerate corecte. Pentru 
realizarea acestui lucru este necesar un circuit de votare (voter). Un circuit 
de votare simplu nu va detecta, totuşi, o gamă largă de moduri de lucru 
defectuoase. Soluţia o oferă redundanta triplă și circuitele triple de votare. 
Această tehnică impune un overhead masiv, care poate fi inacceptabil. 
Se foloseşte în mod obişnuit în situaţiile unde este necesară operarea con- 
tinuă a unui sistem, cind se poate scoate din funcţionare și înlocui modulul 
defect. f 


(iii) Alte scheme cu redundanjă 


Alte scheme sînt avantajoase numai cînd circuitul are un grad înalt 
de regularitate. Acestea sînt schemele cele mai indicate ce pot fi folosite 
de toate arhitecturile regulate, ca cele de memorie sau anumite masive 
de procesoare. Datorită structurii regulate, se pot implementa circuite 
suplimentare, care pot fi incluse în sistem în cazul defectării unui modul. 
Un exemplu ar fi utilizarea liniilor și/sau coloanelor de procesoare supli- 
mentare într-un masiv dreptunghiular de procesoare. Cei mai mulţi produ- 
cători de memorii folosesc această soluţie, care implică un overhead mic. 
Circuitele suplimentare pot fi incluse în sistem într-o manieră permanentă 
(etapă de fabricare după test), sau volatilă. În ultimul caz, sistemul poate 
fi „„reparat” după detectarea defectelor „,in-field”. 

În fig. 6.12 şi 6.13 se prezintă un exemplu de astfel de schemă de înlo- 
cuire, realizată în cadrul unor experimente la Universitatea Southampton 
(Bentley şi Jesshope 1986). Fig. 6.12 prezintă diagrama unui sfert de 
wafer, care este prezentat în fig. 6.13. Fiecare bloc de memorie este serial, 
iar ansamblul asigură un acces paralel, ca o memorie disc solid state. În 
fiecare sfert, una din opt coloane virtuale poate îi adresată şi ieșirile sale 
conectate la magistrala: de ieșire. Fiecare celulă primeşte patru linii adia- 
cente şi informaţie codificată de control care indică numărul celulelor de- 
fecte la stinga (0, 1, 2 sau 3 defecte). Utilizind informaţia de control, se 
folosește linia decodiiicată corespunzătoare pentru a selecta celula. Deoa- 
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Fig. 6.12 Modul de operare âl unui cir- 
cuit de memorie integrat pe un wafer, 
cu redundanta bi-dimensională 
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rece fiecare linie are propria magistrală de control. ea poate elimina oricare 
trei celule defecte. Dacă o linie conţine mai mult de trei celule defecte, un 
semnal de detectare a erorii va indica reţelei suplimentare să ignore acea 
linie. În fiecare sfert se poate elimina numai 6 singură linie complet de- 
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Fig. 6.13 O fotografie a circuitului prezentat în fig. 6.11 (diame- 
tru de aproximativ 7,5 cm) 


fectă. În acest mod se poate configura fiecare sfert de memorie, cu oricare 
opt celule bune din unsprezece din fiecare linie şi opt linii bune din nouă 
existente. 

Water-ul se poate auto-configura, ca în modul test, prin scrierea unui 
cod în toate blocurile în paralel. Acest cod este recunoscut după testarea 
circuitelor şi a magistralei, iar un circuit latch memorează starea bună, 
sau rea, după terminarea testului. Acest lateh de stare este folosit; apoi 
pentru a genera semnalele de control pentru fiecare linie. Evident prin 
acest proces nu s-a testat lateh-ul de stare și nici circuitele de control, care 
însă trebuie să poată fi verificate prin echipamente externe de test. 

Acest wafer experimental nu are structură ut vvmunicare corectă 
pentru un masiv de tip caroiaj. S-au propus, de aceea, modificări ale acestei 
scheme (Jesshope și Bentley 1986, 1987) ce urmează să se implementeze 
în siliciu. Aceste scheme vor permite fabricarea a 16 x 16 elemente proce- 
soare RPA pe un wafer de 3 inch, cu tehnologie CMOS 3um. Reguli de 
proiectare mai agresive (să spunem lum), şi un wafer mài mare (să spunem 
de 5 inch), vor permite o creștere de 25 ori a densităţii estimate mai sus. 
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S-ar atinge astfel 200 Mflop/s pentru operaţii în virgulă mobilă și pînă 
la 2 Gilop/s pentru operaţii cu întregi pe 16 biţi — o performanţă im- 
presionantă pentru un calculator care va încăpea în buzunar. 

Nu putem trata acest subiect complet aici, cei interesaţi avind posi- 
bilitatea să consulte lucrarea editată de Jesshope şi Moore (1986). Aceasta 
reprezintă lucrările unei conferinţe ce a avut loc la Universitatea Sout- 
hampton, unde au fost prezentate trei proiecte de wafer; cel produs de 
Sinclair Research se autoconfigura. Ca și cel proiectat la Southampton, 
şi acesta era un circuit de memorie, configurat dintr-un lanţ liniar de 
celule. 


6.8 Ultimul cuvint (Încheiere) 


Cu tehnologia care realizează progrese ce par a nu avea limite, nu 
este nici o îndoială că, cu toate problemele lor, calculatoarele paralele se 
vor impune tot mai mult. Din păcate tehnologia software nu a ţinut pasul 
cu progresele rapide realizate în domeniul hardware. Motivul pare a fi 
reprezentat de forţele ce guvernează aceste dezvoltări; setea insaţiabilă 
de mai multă putere de calcul. Aceasta a condus la respingerea realizărilor 
mai abstracte ale tehnologiilor software, în favoarea, sistemelor înalt opti- 
mizate, mai mature. Oricum, utilizarea calculatoarelor paralele în domenii 
unde sistemele sint mult mai complexe, a determinat dezvoltarea unor 
metodologii de programare mai abstracte (Harland 1984, 1986). Se cere 
o creştere a nivelului de abstractizare al hard-ului mașinii, odată cu 
exploatarea naturii tehnologiei, a posibilităţilor şi limitelor ei. Sarcina nu 
este uşoară, deoarece ambii membri ai ecuaţiei se modifică rapid. Conver- 
gența acestor discipline, în cadrul tendinței actuale în învătămîntul superior 
este un lucru de care va trebui să se ţină seama în viitor. 
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Postiaţă” 


În urmă cu peste două milenii Heraclit afirma că: „nimic nu este 
de durată cu excepţia schimbării”, iar la începutul anilor 1970, în lucrarea 
„Şocul viitorului”, Alvin Toffler sublinia faptul că „schimbările dramatice 
au devenit în esență procese stabile”. Se poate aprecia că domeniul calcu- 
Iatoarelor este unul dintre domeniile în care aceste observaţii se manifestă 
cu cea mai mare pregnanţă şi în maniera cea mai benefică. 

Începînd cu mijlocul deceniului şase, calculatorul modern evoluează 

în sensul satisfacerii cerințelor de calcul în continuă creztere, a numeroase 
activităţi social-economice. S-au dezvoltat clase diferite de calculatoare, 
ping la calculatoarele de astăzi larg răspîndite, care acoperă un spectru 
de dimensiuni şi aplicaţii mai mare de cit al oricărui alt produs manufac- 
turat. Costul unor asemenea obiecte manufacturate, care se pot numi 
calculatoare, se plasează într-o gamă cuprinsă între 20 dolari, pentru dis- 
pozitivele programabile de buzunar, și 20 milioane de dolari, pentru cele 
mai mari sisteme de tip superealculator, aflate pe piaţă în prezent. Acest 
factor, de peste şase ordine de mărime, se referă la cost, putere de calcul, 
capacitate de stocare a informaţiei ete. Pentru satisfacerea marii diversităţi 
a aplicaţiilor calculatoarelor, cît şi a posibilităţilor financiare ale cumpără- 
torilor potenţiali, producătorii de calculatoare continuă să dezvolte, într-un 
ritm rapid, noi tipuri de calculatoare și software aplicativ. 

Deşi există o multitudine de termeni în uz, în prezent, pentru a iden- 
tifica, clasele de calculatoare, se pare că asupra acestor clasificări nu există 
un consens și că nu se manifestă niei precizia necesară. În continuare se 
încearcă o clasificare generală a sistemelor de calcul avînd în vedere &vo- 
luția și aplicaţiile acestora. 

La începutul erei calculatoarelor moderne, în anii 1950, se considera că 
toate maşinile sint; la fel de utile pentru toate genurile de aplicaţii. Gama 
aplicaţiilor era destul de diversă, dar măsura în care se foloseau calcula- 
toarele era relativ limitată. Calculatoarele foloseau reprezentarea numerică 
binară sau zecimală. Rapid s-au dezvoltat două pieţe : una pentru apli- 
caţiile economico-financiare, iar alta pentru aplicaţiile ştiinţifice. Pentru 
aplicaţiile economico-financiare s-a considerat potrivită reprezentarea 
zecimală, în virgulă fixă, iar pentru aplicaţiile ştiinţifice — reprezentarea 
binară, în virgulă mobilă. | 

La sfârșitul deceniului șase și începutul deceniului șaple, cele două 
pieţe s-au dezvoltat mai mult sau mai puţin separat, avind fiecare o cultură 
specifică. În mod obișnuit arhitecturile calculatoarelor s-au concentrat pe 
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una sau alta din aceste pieţe. Incepind cu anul 1964, care a marcat apariţia 
sistemelor IBM-369, producătorii de calculatoare au încercat să realizeze 
cel puţin hardware-ul capabil să satisfacă ambele pieţe. Astfel, arhitectura 
calculatoarelor medii-mari, dezvoltate la mijlocul deceniului şapte, includea 
atit aritmetica zecimală, cit și pe cea în virgulă mobilă. S-au implementat 
sisteme de operare unice, iar pentru a satisface necesităţile fiecărei pieţe, 
au fost dezvoltate limbaje de nivel înalt şi programe de aplicaţii specifice.. 
În cursul anilor 1970—1980 aceste maşini s-au implementat ca maşini 
de calcul universale, capabile să satisfacă ambele clase de aplicaţii. În pre- 
zent ele sînt cunoscute sub numele de mainframes”. 

La începutul deceniului sapie se constată necesități pregnante legate de 
existența unor calculatoare pentru aplicații ştiinţifice mult mai puternice 
decit calculatoarele universale (mainframes) existente în acel moment. La 
capătul superior al spectrului calculatoarelor ştiinţifice s-a dezvoltat un 
nou segment de piaţă datorită necesităţilor de apărare și datorită necesi- 
tăţilor manifestate de comunităţile ştiinţifice implicate în studiile mete- 
orologice şi seismice. Calculatoarele care servesc acest segment de piaţă 
poartă numele de superealculatoare. Ele reprezintă cele mai puternice 
calculatoare existente la un momenet dat, pentru calculele ştiinţifice. Con- 
form definiţiei date în „Supercomputing, An informal Glossary of Terms”, 
elaborat de „Scientific Supercomupting Subcommittee”, de pe lingă 
„IEEE Committee on Communications and Information Policy”: 
„Superealculatorul| Supercalculatoarele reprezintă, la un moment dat acea 
clasă de calculatoare universale, care sînt muli mai rapide decît competitoarele 
lor destinate calculelor economice-financiare şi au suficientă memorie cen- 
trală pentru a stoca informatia necesară rezolvării problemelor pentru care 
sînt proiectate. Memoria calculatorului, productivitatea, viteza de calcul, 
cît și alte capabilități de acest gen contribuie la obtinerea performanţelor 
dorite. Astfel, se constată că nu există o măsură cantatiră a puterii calcu- 
latorului pentru prelucrările ştiinţifice de mare antergură. In acest sens este 
dificil de formulat o definiție precisă a supercaleulatoarelor”. l 

Necesitățile privind calculatoarele rapide, destinate calculelor ştiin- 
țitice, persistă de peste patru decenii. La jumătatea deceniului opt, capa- 
bilităţile superealculatoarelor au depăşit pragul critic, ceea ce a permis 
dezvoltarea explozivă a „Științei Computaţionale”, care, în prezent, se 
constituie de facto, alături de ştiinţele teoretice și experimentale, ca un 
domeniu legitim, de sine stătător. 

La scurt timp după apariția calculatoarelor moderne, comunităţile 
ştiinţifice/tehnice şi comercial/financiare au ajuns în situaţia de a utiliza, 
calculatoarele într-o manieră susţinută . Sistemele existente în acea pe- 
rioadă erau voluminoase și costisitoare. Costurile ridicate au împiedicat 
proliferarea sistemelor mari — universale de calcul, în ciuda unei pieţe 
deosebit de mari, aflată în așteptarea unor calculatoare mai puţin costi- 
sitoare. O serie de companii (DEC, IBM) au lansat pe piaţă sisteme de 
tip minicalculator, avînd viteze de calcul modeste dar și costuri mult 
reduse proporţional. În acest sens se pot aminti calculatoarele POP-1 
şi IBM-650. Alte companii le-au urmat rapid exemplul. Astfel, pe la 
mijlocul: deceniului șapte, deşi pieţele calculatoarelor destinate aplicaţiilor 
ştiinţifice şi comerciale erau distincte, se puteau achiziționa trei tipuri de 


502 


: echipamente : minicalculatoare, calculatoare universale mainframes” și 
supercaleulatoare. Ca în cazul tuturor noilor produse, au fost realizate 
numeroase variante, capabile să acopere necesitățile diferiților beneficiari. 
S-au păstrat categoriile de bază, dar au apărut și noi sisteme caracterizate 
prin diferenţe în ceea ce priveşte : performanţele, dimensiunea şi tipul 
memoriei, lungimea cuvîntului şi tipul instrucțiunilor. În continuare a 
fost diversificat software-ul pentru a satisface necesităţile unei mari va- 
rietäți de utilizatori. Factorii majori care au determinat succesul diferi- 
telor oferte se refereau la preţ, dimensiuni, ușurința de utilizare, perfor- 
mantele relative ete. Preţul a jucat un rol mai important decit îl joacă în 
prezent. De exemplu, minicalculatoarele au asigurat un segment de piaţă, 
dar costul şi performanţele lor variază încă foarte mult, plecind de la 
minicalculatoarele relativ mici şi ajungind la capătul superior al gamei, 
la superminicalculatoare, care sînt mult mai puternice decît multe main- 
frames” aflate la capătul inferior al acestei clase. 

Deceniul opt a marcat apariţia a două caracteristici arhitecturale 
pentru supercalculatoare : prelucrarea de vectori şi prelucrarea paralelă. 
Acestea au avut ulterior repercursiuni apreciabile asupra noilor sisteme de 
calcul. Caracteristicile menţionate au fost mai întii implementate în sis- 
temele : CDC STA R-100, avind posibilitatea de a prelucra vectori, și în 
Iliac IV, procesor paralel, proiectat la Universitatea din Illinois şi 'con- 
struit de firma Burroughs. Dintre cele două abordări, prelucrarea de vec- 
tori a fost introdusă mai întii în superealculatoarele comerciale, asigurind 
o importantă creștere a performanţelor. Se apreciază că perfecţionarea, în 
continuare a acestor. tipuri de supercalculatoare, folosind tehnici ce se 
referă la arhitectură, tehnologii şi software, este pe cale de à atinge 
saturaţia. Tehnologiile folosite în generaţiile succesive de supercalcula- 
toare ating treptat limitele naturale impuse de viteza finită a luminii şi 
de materialele folosite. În consecinţă, sporira majoră a performanţelor 
rezulta din proiectarea unor arhitecturi capabile să execte prelucrări 
paralele, în cadrul unui singur calcul/algoritm. Toţi producătorii majori 
de calculatoare introduc acest concept în liniile lor de producţie. 


Costurile tipice ale supercalculatoarelor sint de ordinul a 10—20 
milioane de dolari. Cu toată scăderea spectaculoasă a raportului cost/ 
performanțe, costul ridicat al investiţiei într-un supercalculator limitează 
larga răspîndire a acestora. Pentru a facilita accesul la superealculatoare 
al unor largi grupuri de utilizatori, s-a recurs la interconectarea acestora 
prin linii de transmisii rapide de date. Supercalculatoarele au fost prevăzute 
cu calculatoare de comunicații specializate (front end computers), care 
au preluat toate sarcinile privind gestiunea transmisiilor de date. Dato- 
rită costului ridicat al supercaleulatoarelor, cit; şi complicaţiilor suplimen- 
tare legate de teleprelucrare, s-au căutat soluţii alternative. 

În deceniul nouă aceste căutări s-au concretizat prin apariţia mini- 
supercalculatoarelor. Acestea sint relativ ieftine, uşor de procurat, au 
performanţe ridicate, fiind similare supercalculatoarelor sub aspect arhi- 
tectural. Datorită costurilor reduse ele sint accesibile şi unor grupuri 
restrinse de utilizatori, de tipul departamentelor din cadrul unor companii 
sau universități. În proiectarea minisupercaleulatoarelor, o atenţie deo- 
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seb ită se acordă în primul rînd costurilor și în al doilea rînd performanţelor. 
Astfel, se susţine ideea „superealcula;torului personal”, tot mai des întil-, 
nită printre cercetători, care urmăresc să aibă controlul local al resurselor. 

În dezvoltarea minisupercalculatoarelor un impact deosebit l-au avut 
micro procesorul şi prelucrarea paralelă. Încorporarea în minisuperealcula- 
toare a unor microprocesoare performante, în cadrul unor arhitecturi 
paralele, a permis apariția unui adevărat segment de piaţă pentru aceste 
gisteme, care sînt folosite de-sine-stătător (stand alone), încorporate în 
structuri distribuite, la nivel departamental, sau în calitate de calcula- 
toare frontale puternice. 

Fenomenul calculatoarelor personale a căpătat o deosebită amploare 
în deceniul nouă, datorită costurilor scăzute, puterii superioare de calcul, 
fiabilităţii ridicate şi uşurinței de exploatare a acestui tip de echipamente. 
Ele îşi găsesc utilizări în prelucrări de texte, .in gestiunea bazelor de date, 
în tabelarea electronică etc., transformiînd birourile în adevărate birouri 
electronice (electronic office). > 

Relativ recent a apărut pe piaţă o clasă foarte puternică de calcu- 
latoare personale, denumite iniţial stații de lucru ştiinţifice. Costurile lor 
în funcţie de performanțe, variază de la cele ale unor calculatoare personale 
puternice pină la cele ale minicalculatoarelor sau ale calculatoarelor univer- 
sale — mainframes” aflate la capătul inferior al gamei. 

Evoluţia industriei de calculatoare poate fi urmărită examinând : clasa 
aplicaţiilor, costurile sistemelor, cifra de afaceri în fiecare segment. În figura 
P 1 se prezintă modificările intervenite în spaţiul ce defineşte tehnica de 
calcul prin prisma indicatorilor menţionaţi mai sus. Axa aplicațiilor. are 
un caracter calitativ separind aplicaţiile științifice de cele economico-finan- 
ciare. Axa costurilor pe unitate indică costul diferitelor sisteme în mii de 
dolari. Axa verticală specifică cifra anuală de afaceri în dolari. Ultimele 
două axe folosesc scări logaritmice. 

În 1960 (fig. P1 a) cifra totală de afaceri a fost de circa 700 milioane de 
dolari, existînd o separare distinctă între calculatoarele destinate calculelor 
ştiinţ itice şi cele destinate calculelor economico-financiare. 

ntre 1965 și 1975, piața minicalculatoarelor a preluat o importantă 
parte a totalului aplicațiilor. În figura 1 b se observă cum sistemele univer- 
sale — ,„„mainframes” au acoperit pieţele aplicaţiilor științifice și: eco- 
nomico-financiare. 

Perioada 1975—1980, av ind ca an de referință 1975 (fig. P1 e) mar- 
chează, e iile supercalculatoarelor ca și, de altfel, a calculatoarelor 
personale.: 


În prinia’ jumătate a deceniului nouă (fig. P1 d) se manifestă o puter- 
nică ereştere a tuturor segmentelor, cit și apariția stațiilor de lucru, care 
se plasează între calculatoarele personale şi minicalculatoare. - 

Cea de-a doua jumătate a deceniului nouă, marcată prin anul::1987 
(fig. P1 e), ilustrează creşterea masivă a cifrei de afaceri în toate segmentele 
pieţei de calculatoare, evidențiind în acelaşi timp apariţia unui nou segment, 
acela al minisuperealculatoarelor. 

În cadrul fiecărei etape au fost dezvoltate şi alte clase de calculatoare ; ; 
acestea , însă nu au căpătat o pondere importantă pentru a se putea iden- 
tifica un: segment specifie de- piar "Un asemenea, exemplu îl cmetitaie 
procesoarele matriciale. i ai 
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ționa faptul că un singur cadru recepționat de satelitul LANDSAT conţine 
30 milioane octeți şi că pentru acoperirea unei zone geografice avind supra- 
fața Moldovei sînt necesare 13 cadre. Seturi de imagini ale globului pă- 
mintesc se realizează la intervale de 15 zile. Pentru prelucrarea unei ase- 
menea cantităţi uriașe de informaţii, astfel acumulate, se impune folosirea 
unor resurse de calcul extrem de puternice. 


Explorarea resurselor energetice a condus la numeroase studii privind 
explorările seismice, modelarea zăcămintelor de hidrocarburi, energetica 
nucleară s.a. Pentru prelucrarea celor 10'5—10" biţi de date seismice, care 
se acumulează anual, cît și pentru modelarea, comportării plasmei în gene- 
ratoarele Tokamak sînt necesare sisteme de calcul cu pină la două ordine 
de mărime mai puternice decît cele existente. 


Cercetările în domeniul medical se referă, printre altele, şi la utilizarea, 
calculatoarelor în tomografie, inginerie genetică ș.a. Pentru implementarea, 
tomografiei în timp real sînt; necesare sisteme de calcul cu viteze de 2—3 
Gflops. De asemenea, decodificarea codului genetic, evaluarea mutaţiilor 
genetice și proiectarea de noi organisme impun folosirea unor calculatoare 
cu viteze foarte mari. 


® Utilizarea supercalculatoarelor creează o nouă dimensiune în do- 
meniul cercetării științifice fundamentale ED) aplicative, caracterizate, în 
principal, prin activități de natură teoretică şi experimentală. În prezent. 
triada Teorie — Experiment — Calcul asigură, condiţiile dezvoltării tără 
precedent a activităţilor de cercetare ştiinţifică în cele mai multe domenii 
ale activităţii social economice. 


Teoria sugerează noi experimente şi interpretează rezultatele experi- 
mentelor ; în ceea ce priveşte calculul, teoria furnizează ecuaţii/modele ma- 
tematice și interpretează rezultatele. 


Experimentul sugerează noi ipoteze teoretice şi testează teoria, de 
asemenea, generează date pentru calcul. 


Calculul, pe baza unor operaţii precise, şi laborioase, sugerează noi 
modele teoretice ; în legătură cu experimentul, calculul modelează procese 
fizice, sugerează noi experimente, analizează date și controlează echipa- 
mente. Practic în fiecare disciplină ştiinţifică și inginerească , dezvoltarea 
tehnologică se bazează din ce în ce mai mult pe simulare, cu ajutorul calcu- 
latorului, deoarece numai o mică parte a experimentelor dorite pot fi rea- 
lizate fizic la costuri realiste. Această abordare, bazată pe simulare, a sti- 
mulat şi mai mult cererea de putere de calcul. 


e Supercalculaioare : clase, performanţe, costuri, er emple. 

După puterea de calcul şi după cost, supercalculatoarele se împart în trei 
categorii : supercaleulatoare propriu-zise (full scale), superealculatoare 
medii (near supers ) și minisupercalculatoare. 

e Superealeulatoarele au performanţe cuprinse între 0.2—3 Gilops 
la costuri de ordinul a 2—25 milioane de dolari. Ca exemple se pot da: 
Cray-2, Cray X-MP, Cray Y-MP, NEC S%-1/SX-2/SX-3, Fujitsu/Amdahl 
vP200/VP400E, Fujitsu YP2000; 'V P2600/20, Hitachi S- 820- 80, CDC/ETA 
10G, IBM GF11/30908. 
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e Supercaleulatoarele medii se caracterizează prin viteze de ordinul 
a 50—500 Mflops și costuri de 1-4 milioane de dolari. În această clasă 
sînt cuprinse : IBM 390/VF, Loral MPP, CDC Cyber-plus, Univac 1194/1SP, 
Connection machine, BBN butterfly ete. l 


e Minisuprecaleulatoarele operează la viteze de 10—100 Milops, 
avind costuri de 0,1 —0,5 milioane de dolari. Ca exemple se pot da sistemele : 
Aliant FX/8 , Convex C-1, SCS-40, Elxsi, 640, FPS 14 Max, T-series, 
Wrap etc. ; 

Pentru comparaţie se prezintă şi unele date referitoare la supermini- 
calculatoare. Viteze : 0,5 Milops sau 5 Mips. Cost: între 20 şi 400 mii de 
dolari. Exemple: VAX 6800, VAX 11/780, IBM 4300, IBM 9370- Py- 
ramid etc. 

e Evoluţia şi principiile constructive ale superealeulatoarelor. Reali- 
„zarea unor sisteme de calcul cu performanțe care se plasează în zona super- 
calculatoarelor a fost posibilă prin perfecţionări de ordin tehnologic şi func- 
țional-structural. Pe plan tehnologic superealculatoarele au folosit în cele 
mai multe cazuri componenţe de mare viteză (circuite EOL, GaAs), și 
tehnici evoluate de împachetare-răcire, ceea ce a permis reducerea dra- 
matică a perioadei ceasului sistemului (2,9 ns la NEC SX-X/SX-3/44) 
Sub aspect funcțional/structural, supercalculatoarele fac uz intens de para- 
lelism la toate nivelurile de operare. 

Astfel, la nivelul unităților functionale, paralelismul se implementează 
sub forma prelucrării paralele a biţilor care reprezintă datele. Paralelismul 
la nivelul elementelor de prelucrare se materializează prin efectuarea dife- 
ritelor operaţii în paralel, cu operanzi multipli, şi prin funcţionarea în 
regim de bandă de asamblare (pipeline ). 

În sistemele uniprocesor paralelismul se poate manifesta în cadrul 
accesului la memorie, anticipării instrucțiunilor, suprapunerii operaţiilor 
de prelucrare cu operaţiile de I/E. 

Cele mai multe supercalculatoare reprezintă sisteme multiprocesor 
cu comunicaţii prin partajarea memoriei şi prin transfer de mesaje (memorie 
distribuită ). În primul caz, data scrisă în memorie, de către un procesor, 
poate fi citită de către toate procesoarele din sistem,în cadrul unui sistem 
sincronizat de acces. În cazul al doilea, comunicaţia se face de la punct la 
punct. Data este generată de către procesorul sursă şi furnizată la proce- 
sorul destinaţie. În cazul în care nu există o cale directă de comunicaţie, 
între sursă și destinaţie, mesajul este transferat prin procesoare interme- 
diare. Arhitecturile de interconectare pentru structurile cu memorie parta- 
jată se bazează pe magistrale şi pe rețele de comutare cu mai multe etaje, inclu- 
zînd şi comutatorul de tip „,Crossbar”. Arhitecturile de conectare pentrus 
ssetemele cu memorie partajată folosesc conexiuni de tip hypercub (retea 
plasă ). 

Dezvoltarea operării concurente a fost abordată pe mai multe căi: 
banda de asamblare, utilizarea unităţilor funcţionale multiple în sistemele 
uniprocesor, sisteme bazate pe procesoare care cooperează, sisteme specia- 


lizate l de calcul s.a. 
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Evoluţia structurii sistemelor de calcul, de la prelucrarea secvențială, la 
prelucrarea paralelă-concureniă, este dată mai jos: 
Scalar 
| N Prelucrare secvențială. 
Anticipare 
|! N Operare cu unități funcționale multiple. ù 
Banda de asamblare. 
! N Manipularea vectorilor impliciți. 
- Vectori expliciţi . 
! ii Operare în maniera memorie-memorie. 
Operare în maniera registru-registru. 
! N Operare cu fluxuri multiple de instrucţiuni şi fluxuri mul- 
tiple de date SIMD). 


Operare cu un singur flux de instrucţiuni și cu fluxuri multiple de 
date (SIMD). 


© În acest context supercalulatoaree se pot clasifica după structurile 
operationale și de interconetare, după cum urmează. 

— Umnaprocesoare cu unități funcționale multiple și cu opțiuni hardware 
pentru. prelucrarea vectorilor. Sisteme reprezentative : Alliant FX/1, IBM 
3090. CDC 7600, FPS, 164/264/36, Convex, Cray 1, Cray X-MP/1, Cray 2, 
Cray Y-MP/1, Čy ber 205, Amdahl 500; /1100/1200/1400, Fujitsu VP-50/ 
100;20/400/400 E, Hitachi S-810/820-80, NEC SX-2, 3085-40 ete. 


— Procesoare matriciale SI MD, procesoare atașate. Sisteme reprezen- 
tative: Coral MPP, ICL/DAP, FPS 164/MAX, Connection Machine, 
IBM GT-11 s.a. 


. — Sisteme muliiprocesor cu memorie partajată. Sisteme reprezentative : 
Cray X-MP/2/4, Cray-2 2/4, Aliant FX/8, Encore/Multimax, Elxsi 6400, 
Sequent 8000, IBM 3090/400 VF, Unicac 1194/ISP ete. 

— Multicalculatoare cu memorie distribuită. Sisteme reprezentative : 


IPSC, Amtek 14, NCUBE, BBN Hane, CDC Cyberbplus, Culler PSO, 
FPS, "T-series, Wrap etc. 


— Sisteme ierarhice configurabile. Sisteme reprezentative Cedar, 
ETA-40, IBM RP3, Remps s.a. 


Q Un aspect important, privind structura sistemelor de calcul paralel, 
se referă, la organizarea memoriei : partajată, distribuită. 


În cazul memoriei partajate procesoarele (P) și memoriile (M) se con- 
stituie în unități distincte, care se interconectează cu ajutorul comuta- 
toarelor (S) „Crossbar”, al comutatoarelor cu mai multe etaje sau folosind 
magistrala unică (fig. P2). 

În cazul memoriei distribuite, fiecare procesor P are asociată o memorie 
M proprie, formînd astfel unităţi distincte MP, care se pot interconecta sub 
formă de rețea/plasă (fig. P3). 

e Tipuri reprezentative de suparata, calculatoare de . foarte 
mare. capacitate. 

În prezentarea care urmează (Tabelul P1) se vor folosi următoarele 
notații: MP-multiprocesor ; MC-multicaleulator ; ; SM-memorie partajată ; 
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Tabelul. P1 Tipari reprezautalive de suporealeulatoare de capacitate mare. 


- Arhitectură/ 


Modelul Configurație 


Cray X-MP/4\ MP cu SM și 
conexiuni directe! 


4 Proc. 


Nr. maxim 
de procesoare! tehnologie 


Tip PR. Cap. max. a 


memoriei 


custom ECL |16 Mw in CM 
[128 Mw în SSD 


Performanţe 


| 840 Milops 


Cray 2 idem 4 Proc., 1 
| | 10p 

Cray 3 E: cu SM 16 Proc 

Cyber-205 UP cu Proc. 1 Eroe, 
ptr. scalari și 
4Ba ptr. vectori | 

ETA-10 MP cu SM | 8 Proc 
| | 16 10P 

) 

Fujtsu UP cu BA hi Proc 

VP-200 multiple | 

Hitachi UP cu BA 1 Proc 

S-8iu multiple 

HEP-1 MP cu SM și Bă Proc. 
reţea de comu- 
tare | 

1BM.3090/400|MP cu SM şi |4 Proc. 

VF conexiuni directe 

| 

CDC Cyber- |MC cu DM şi |64 Proc. 

plus conexiune in 
inel 

Connection SIMD cu DM | 64k. PE 

machine hypercube in 
| reţea globală 

BEN butter-| MD cu SM și |256 Proc 

fly (fig. P4) [reţea de comu- | 
[tare buttefly 

IBM GF11 |SIMD cu reţea |576 PE 

i <onligurabilă 
Bencş 
} 

IBM RP3 , | MP cu SM/ | 512 Proe 
DM și reţea de j 
conectare | 

Cedar MP-ierarhic cu |256 Proc 


[SM 


512 


— | ———— 


————Mm ———. 


idem 256 Mw 
custom 2 Gw 
GaAs/ECL 
ois 4 Mw 
CMOS 
custom 256 Mw A 
custom ECL | 32'Mw 
|— 
custom 32 Mw 
custom 256 Mw 
custom 2 GB în CM 16. 
CMOS TB in EM 
custom 512 Kw/proce- 


sor 


VI.SI/CMOS| 32 MB 
Gate array 


IM 08020 şi 1128 Mw 
coprocesor 

custom ` ! 

l 

! cistom 2 MB/proc. 

FL. P. Proc. |1.1GD-total 

îs Ai aa Ace 

I RISC/32 biţi! 128 Mw 


o SES, E 

j 

Aliant/Fx : pe 
cluster 


400 Mflops 


10 Glops 


533 Milops 


840 Mflops 


160 Mtlops 


480 Mflops ` 


65 Milops, 620 
Mips/procesor 


250 Mtlops 1 
Gips 


[236 Mips 


Ma Milops 11 
|Gilops total 


| 800 Mflops 1300 


DM-memorie distribuită; UP-uniprocesor; IP-procesor interactiv; IOP 
-procesor de I/E; PE- element de prelucrare ; CM-memorie centrală; 
SSD-dispozitive tranzistorizate/integrate ; BA- banda, de asamblare ; EM 
— memorie externă. 


Procascr 


FHC 68020 | 


și RAM LMB 
£ procesar 


4C 63801 | 


Controlar 
memorie 


functii 


i specătia 1 


dei 
Conirol daptor 
Bion X 
s 


NC-Nod de comutare 


Fig. P4. Schema bloc pentru un procesor de nod ,,butterily” şi specificarea comuta 
torului „butterily””. 


În Tabelul P2 se prezintă date asupra unor superealculatoare avind 
benzi de asamblare, care operează cu cuvinte de 64 de biţi. 

În anul 1983, Subcomitetul Ştiinţific IEEE, pentru Superealculatoare 
a elaborat; un raport privind dezvoltarea supercalculatoarelor în SUA şi în 
alte ţări. Faţă de concluziile acelui raport, în 1989 se constatau următoarele 
elemente : 

— Control Data a renunţat la producţia de sisteme ETA ; 

— Din firma Cray Research s-a desprins un grup, care a format com- 
pania de superealculatoare Supercomputer Systems, avind ca sponsor 
firma IBM; 

— În mai 1989, din firma Cray Corporation s-a desprins firma Cray 
Computer Corp., pentru a produce sistemele Cray-3. ; 

— IBM a reintrat în cursa pentru supercalculatoare, prin conectarea, 
unor subsisteme pentru prelucrarea vectorilor la sistemul „maintrame” 
30905. Acesta se situează în gama medie-mică a performanțelor supereal- 
culatoarelor. Pînă la sfîrşitul anului 1988 au fost comercializate circa 300 
sisteme ; 

— În aprilie 1989 NEC a anunţat un nou superealculator de tip multi- 
procesor, acesta fiind primul model japonez de multiprocesor. 

Se constată că japonezii au produs cele mai performante supercalcu- 
latoare de tip uniprocesor, în speranța de a le conecta ulterior, în structuri 
paralele. 

Tabelul P3 furnizează unele caracteristici ale celor mai recente super- 
calculatoare sau ale superealculatoarelor în faza de prototip. 
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Anunţarea seriei 
Prima instalare 
Număr procesoare 


Performanţe max. 
Pe procesor. 
Total virf. 


“Durata ciclului 


Cap. max. memorie 
Extensie memorie 


Tehnologie 
Logică 


Intirzirea pe poartă 
Memoria principală 


Ciclul 


Memorie IJE ; disc; 
monolitică secundară 
Nr. căi (total) 

Debit max. cale 
(Mbytes/s) 

Debit max. agregat 
(Mbytes/s) 

Răcirea 


Sistem operare 


Limbaje/compilatoare 


Caracteristici 
Benzi asamblare 


încărcă/ 
Memorează ` 


Registre, cuvinte pe 
procesor 

Scalar 

Vector 

Alte caracteristici 
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lTunie 1983 
1,2,4 


235 Mflops 
940 Milops 


8,5 ns 


0.5 Gbyte 
4 Gbyte 


ECL 

16 porti 
650 ps 
CMOS 64 K 


68 ns 
ECL SRAM 
64 K; 34 ns 


32; 2 
26,6 ; 1250 


40; 2500 
Freon 


GTSS/GOS/ 
Unicos 
Fortran 77, 
C, Pascal, 
Ada 


4 Adunare 

4 Logice 

4 Deplasare 

4 Contorexp. 
4 Imulţ. VM 
4 Adun. 


8 Încarcă 
şi 
4 Memorează 


64B, 64T, 8A,8s 


512=8 x64 


Oct. 1984 
1,2,4 


488 Mtlops 
1951 Milops 


[4,1 ns 
ă Gbyte 


ECL 

16 porti 
650 ps 
MOS 1 M 
DRAM 


185 ns 
SRAM 
1256 K; 54 ns 


36; — 
ja ; 500 
12000; — 


Imersiune 
Fluorinert 


IUnicos/ GTSS 


Fortran 77, 
C, Pascal 
¡Ada 


4 Inmulţire 
4 Adunare 
4 Logice 

4 Intregi 

4 Contorexp 
4 Incarcă 


sau 
4 Memorează 


8A, 8S 
512=8 x64 


Fără tnlănțuire ; 
rr locală 


Feb. 1988 
Oct. 1988 
1,2, 4,8 


333 Milops 
2670 Milops 


16 ns 


1 Gbyte 
4 Ghyte 


ECL 

2500 porti 
350 ps 
ECL 


30 ns 


48; 4 


26.6 ; 1250 


800 ; 5000 
Fluorinert 
U CP şi Mem. 
Freon IJE 


CTSS/COS/ 
Unicos 
Fortran 77, 
G, Pascal, 
|Ada 


8 Adunare 
8 Logice 
8 Deplasare 


8 Contor exp. 


8 înmulţ. VM 
8 Adun VM 


16 Încarcă 
şi 
i8 Memorează 


64B, 64T, 8å,8S 


1512=8 x 64 


(128 Kbyte/proc) 


T abel P2. Caracteristicile unor super- 


| Gray X-MP | Cray-2 Cray Y-MP CDC/ETA 10G 
H : 


Oct. 1985 
1987 
1,2,4,8 


572 Milops 
4600 Milops 


7 ns 


1 Gbyte 
8 Gbyte 


CMOS 

20 K porti 
300 ps 
SRAM 256 K 


35 ns 
DRAM 
1 M; 150 ns 


16; — 
50; — 


1000; — 
Azot (77 K) 
Logica 
Freon Mem. 


SYS V, EOS 


Fortran 77, 
C, Cybil, 
Meta asmb. 


j16 Adunare 
16 Întregi 
16 Împärt. 
16 Înmulţ 
16 Deplas. 
16 Logice 


4 Încarcă 
și 
4 Memorează 


256 


calculatoare recente curent eomerelalizate ` 
a a a E, A 
VP400E Hitachi 


IBM 309%0s Fujitsu/Amdahi S-830-80 NEC SX 2 
„SERIE EIN E N 
— Aprilie 19 82 August 1982 1983 . 
Mai 1986 Noiembrie 1983 Noiembrie 1983 Mai 1985 
1,2,3,4,5,6 1 1 1 


133, 3 Milops 
4600 Milops 
15 ns 


0,5 Gbyte 

2 Gbyte 
ECL 
612/2360 porti 
NMOS 1M 
DRAM 


80 ns 


16—128; — 
4,5; — 


500; — 
Apa (100—132 
pastile/modul): 


MVS, VM, AIX/370 


Fortran 77, APL-2 
APL—2 


6 Adun/Scd/Logic 
6 înmulţire/imp. 


6 încărcare 
sau 

6 Memorare 

(combinaţii) 


16 GP, 4FP 
2K = 8x256 


a. 


1710 Mflops 
1710. Mflops 
7 ns (vector) 
14 ns (scalar) 
0,25 Gbyte 
1 Gbyte 


ECL 
400/1500 porti 
350 ps 

256 K SRAM 


35 ns 


32; — 
3; — 


96; — 
Aer 


MSP/MVS/XA/U'TS/M 


Fortran 77 


4 Înmulțire 

4 Împărțire 

4 Adunare/Logic 
4 Mascare 


2 Încărcare 
sau 

1 Încărcare 

1 Memorare 


16 K (contigurabilă 
dinamic) 2048 elemente/ 


vector 
Tampon (cache) 


3000 Milops 
3000 Milops 
4 ns (vector) 
8 ns (scalar) 
0,25 Gbyte 
12 Gbyte 


ECL 

2500/5000 porti 
200 ps/250 ps 

256 K SRAM 

bi- CMOS 20 ns 

1 M MOS DRAM 


120 ns 


Fortran 77 


4 Înmolţire 

1 Împărțire 

4 Adunare/Logic 
4 Înmulțire VM 
4 Adunare VM 


8 Încărcare 
sau 

4 Încărcare, 

5 Memorare 

(date contigue) 


16K = 32x512 


pere: - 


1300 Mtlops 
1300 Mflops 
6 ns 


1 Gbyte 
8 Gbyte 


ECL 

1000 porti 
250 ps 

256 K MOS 
SRAM; 1 M 
MOS DRAM 


6; 1 
15,9; 1300 


95,4; 1300 
Apa (logica) 
Aer uscat 
(memorie) 


SXOS 


Fortran 7 


4 Înmulțire; 
Împărțire 

4 Adunare 
4 Logic 

4 Deplasare 


8 încărcare 
şi 
4 Memorare 


128 
16 K 


Tampon scalari. 
n N A NI, 
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Tabelul P3. Caracteristicile superealeulatoarelor anunțate după 1988 şi ale unor superealculatoare în faza de proiect. 
ian ÎL oii os PS ei pa a a O N IRI RE NNE N RI NR NN NI N N N 


Anunţat 

Prima instalare 
Număr procesoare 
Performanţe max. 
Pe procesor 

Total virt 

Durata ciclului 
Cap. max. memorie 
Extensie memorie 
Tehnologie 

Logica 


__ Întirzierea pe poartă 


Memoria principală 


Extensie mem. 
IJE 

Număr de căi 
Debit max./cale 
Mbytes/s 

Debit max. agregat 
Mbytes/s 

Răcirea 


Sistem de operare 
Limbaje comp latoare 


Caracteristici 
Benzi de asamblare 
(vectori) 


Registre 

Scalar 

Vector 

Alte caracteristici 


NEC—SX—X/SX—3/44 


În a O i II 


Aprilie 1989 
1989 
1,2, 4 


5,5 Gflops 
2 Gflops 
2,9 ns 
2/16 Gbyte 


ECL 

20000 porți/pastilă 
70 ps 

bi- CMOS 256 K 
SRAM (20 ns) 
DRAM 1M (150 ns) 


256+48+8 

3, 4,5, 6, 9/20/100 
1068 

Apă (logica) 

Aer (memoria) 
Super-UX, SXOS 
Fortran 77/SX 

c 

8 Înmulțire /Deplasare 
8 Adunare/Boolean 
512 cuvinte 


72 K cuvinte 
Memorie tampon (cache). 


N ——_— 


Fujitsu VP2000/VP 
2600/20 


Decembrie 1988 
1990 

1,2 

2 Glops 

4 Gflops 

4 ns 

2/8 Gbyte 


ECL 
15000 porți/pastilă 
80 ps 


SRAM 1 M (35 ns) 


16—128 
9 (fibră optică) 


1000 
Apă 


MSP, UTS/M 
Fortran 


Dual scalar/ 
Mono vector pe procesor! 


16 K cuvinte 


SSI 


199X 
16, 32, 64 


2 ns 


Unix 


Fortran, 
C++? 


Cray-3 | Cray-4 | Gray- G-90 


199X 199X 199X 

16 64 16 

1 Gflops 2 Gtlops 1 Gflops 

16 Cilops 128 Giflops 16 Gflops 

2 ns 1 ns 4 ns 

GaAs, ECL, GaAS 

500 porţi/pastilă 

MOS 

Unicos Unicos Unicos 

C Fortran, Q Fortran, G Fortran, G 

C++? e++? C++? 
23 


© Tipuri reprezentative de supercalculatoare de capacitate medie- 
minisupercalculatoare pentru multiprelucrare, prelucrare paralelă, prelucrare 
de vectori. 

Folosind notațiile din paragraful anterior, caracteristicile unor ase- 
menea tipuri de calculatoare sînt prezentate în Tabelul P4. 


Tabelul P4, Tipuri de superacalculatoare de capacitate medie 


Arhitect ură/ | Nr. max. de| Tip procesor | Cap. max.a 
Modelul Configurație procesoare tebnologie memoriei Performante 
| | 
Aliant FN8 IMP cu SM conexi-|8 proc. 121P | M 68010 Gate |4 Mw :94 Milops, 
une pe magistrală array 35,6 Mips 
ELXSI 6400 MP cu SM co- 12 proc. IECL/IV L SI A 92 MB [156 Mips 
: nexiune pe 
magistrală 
! i | 
UNCORP IM Geu SM şi 20 proc. iNS 32032 16 Mw 35 Mips 
multimex conexiune pe 
magistrala 
Flexible 32 ÎMCeu DM și 20 proc. cabi-] NS 32032 20 Mw 35 Mips/ 
magistrale VME [net M68020 i procesor. 
20 Mflops ; 
|pentru vectori Gate array 25,5 Mips 


i 
Convex CM/XP UP cu hardware | 4 proc. 5 IOP| CMOS/VLSI | 16 Mw 
| 
l} 


SS C-40 ly PuBA 'ECL/L SI 4 Mw 4,4 Milops ; 18 
multiple Mips 

IPS C-VX MC cu DM și 128 noduri de| 80286/80287 32 Mw 15 Milops 
hipercub 

Ametek S-14 MCeu DM şi co- 80286/80287 32 Mw 15 Milops 
penini hipercub 

NCUBE/10 MC cu DM şi co- |1024 proc. ‘custom VLSI lS 72 MB j500 Mflops ; 

(tig. P5) nexiuni bipercub 24 IPS 


16 Milops ;7,5 
Mips/nod. 


FPS-T (fig. P6) |MCeu DM și co- 


Bi hipercub | 


Tranputer |1 MB/proc. 
N 


ocs 


MAGISTRALA - BUS- ` 


Fig. P5 Supercalculator de tip ,,desk-top”, bazat pe procesoare de tip transputer INMOS-T8, 
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În continuare se prezintă produsele recent anunțate ale ùnor firme. 


FE Front End 
(Calculator frontal) pe Micpo 


P-Procesor 4 
(Custom agitatori 


Fig. P6. Arhitectura hipercub pentru mașina de tip „,connectionist”, 


© HNSX Supercomputers, Inc., ( Burlington, MA ) s-a adresat pieței 
de supercalculatoare extrem de rapide și fiabile prin introd ucerea Seriei 
SX-X, care foloseşte o arhitectură bazată pe banda de asam blare pentru 
manipularea rapidă a vectorilor şi scalarilor. Seria S X-X operează sub o 
implementare a sistemului de operare UNIX, care poartă numele de 
SUPER-UNIX. Aceasta permite integrarea seriei cu alte sisteme bazate 
„pe UNIX, cit şi utilizarea unei vaste biblioteci de programe aplicative 
pentru analiza structurală, analiza cimpurilor magnetice, calcule numerice 
şi simulare, studiul curgerii fluidelor, testarea mediului, prelucrări de ima- 
gini, grafică ete. Modelul de la capătul superior SX-X4. poate realiza o 
< iteză de 22 Glops. 


e MasPar Computer (Sunnyvale, QA) a anunțat recent un super- 
calculator cu paralelism masiv destinat calculelor ştiinţifice și inginereşti. 
Familia M.P—1 include 8 configurații cu preţuri care încep de la 170 000 
dolari, pentru un sistem cu 1024 de procesoare lucrind în paralel, pînă la 
810 000 dolari, pentru configurația MP1216, care dispune de 16384 de 
procesoare. 


© Evans & Sutherland Computer Diviston (Mountain Kiew, CA) a 
anunțat în 1989 sistemul ES—/7. Arhitectura lui este bazată pe con- 
figuraţii cu 2—8 procesoare, fiecare procesor dispunind de 16 unități de 
calcul. Fiecare unitate de calcul operează independent ca un calculator 
paralel puternic. Sistemul este destinat rezolvării problemelor cu caracter 
ştiinţific şi ingineresc în domenii ca: modelarea moleculelor, inginerie 
aerospațială și transporturi. Costurile, în funcție de configuraţie, variază 
între 2 şi 8 milioane de dolari. 


e Myrias Computer Corporation (Boston, MA ) a lansat; recent sis- 
temul paralel Myrias SPS-2, pentru aplicaţii industriale, ştiinţifice și 
inginerești în domeniile dinamicii fluidelor, modelării moleculelor, pre- 
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lucrării de imagini etc. Avînd o structură modulară, se poate extinde ușor 
de la maximum 64 procesoare, la peste 1000 procesoare. Software-ul de 
sistem asigură gestiunea automată a memoriei şi resurselor. Configuraţia 
SPS-2, cu 64 de procesoare, costă circa 0,5 milioane de dolari, în timp ce 
configuraţia cu peste 1000 de procesoare costă circa 10 milioane de dolari. 


e Apollo Computer Inc., (Chelmsford, MA ) realizează Series 10000 
Visualization System (Series 10000 VS ), care combină viteza superealcu- 
latoarelor cu grafica 3-D şi arhitectura RISC. Ca aplicaţii se au în vedere 
dinamica fluidelor, analiza elementului finit, modelarea moleculelor, 
prelucrarea imaginilor în medicină, analiza datelor seismice, proiectarea 
în electronică, animația imaginilor. In Series 10000 VS, prelucrările au 
loc simultan cu vizualizarea rezultatelor, folosindu-se procesoare de ima- 
gini 3-D RISC. Ele încorporează execuţia paralelă, cu trasarea de pixeli 
într-un singur ciclu, fără microprogramare. Sistemul poate afișa peste 
1 milion de vectori 3-D (virgulă mobilă)/s, şi circa 100000 poligoane 3-D/s. 


e Siardent Computer Inc., (Sunnyvale, CA ) a lansat în 1989 sistemul 
grajfic-superealeulator Stardent 3000, bazat pe tehnologia RISC. În con- 
figuraţia completă cu 4 procesoare Mips Computer R300/3010, operind la 
32 MHz, poate asigura o viteză de 128 MIPS şi 192 Mflops. Stardent 3000 
are o structură modulară şi este destinat aplicaţiilor inginerești care nece- 
sită o mare viteză de calcul, cît şi capabilități grafice interactive 3-D. 
Costul configurației minime este de 89000 de dolari. 


e NCUBE (Bearerton, OR) oferă superealculatorul NCUBE 2 
Scalar, bazat pe un paralelism masiv. Sistemul folosește microproce- 
soare VLSI, care integrează pe o pastilă un calculator pe 64 de biţi. În 
funcţie de specificul aplicaţiei poate fi configurat ca număr de procesoare. 
Într-o configuraţie cu 8192 procesoare, NOUPE 2 realizează 60 Gips. 
Capacitatea maximă a memoriei este de 512 G bytes. Aceasta permite 
abordarea problemelor de prognoză a vremii şi, în general, a problemelor 
în care se manipulează cantități mari de date. Alte domenii de aplicaţii : 
rețele neuronale, robotică, prelucrarea semnalelor, dinamica fluidelor, 
prelucrarea tranzacţiilor, analiza structurală şi chimică ete. Costul unui 
sistem minim este de circa 395000 de dolari. 


9 CONVEX Computer Corporation, (Richardson, TX) a proiectat 
un sistem de tip supercalculator accesibil ca preţ oamenilor de ştiinţă și 
inginerilor din organizaţii ce dispun de resurse financiare modeste. Apelind 
la numeroase standarde industriale, sistemul permite o integrare uşoară 
în mediul utilizatorului. Pentru a întări sistemul 0. Series de superealcu- 
latoare integrate, pentru prelucrări de scalari, vectori, cît şi pentru pre- 
lucrări paralele, s-a introdus procesorul Enhanced Scalar Processor (ESP ), 
care este compatibil la nivel obiect cu seria C Canalul Integrat pentru 
Disc (Integrated Dish Channel — IDOC ) asigură funcţia de server pentru 
fișiere şi baze de date, la un nivel înalt de performanţe. Costuri : ESP — 
15000 dolari, IDC — 48 dolari. 


© Apiec Computer System, (Portland, OR) a proiectat sistemul 
Aptec IOC Computer, folosit pentru conexiuni de 1/E. Se au în vedere sis- 
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temele frontale pentru telemetrie, procesoarele specializate şi procesoarele 
de imagini. Sistemul poate prelucra, și transfera, cantităţi mari de date în 
timp real, pentru aplicaţii asistate de calculator. 


© Evaluarea creșterii de viteză în rezolvarea problemelor, folosintt 
supercaleulatoarele în locul calculatoarelor seriale. 


Aspectele creşterii vitezei de prelucrare, prin folosirea calculatoarelor 
paralele au fost extrem de controversate. Astfel, în anul 1967, Gene 
Amdahl propune o formulă prin care se stabileşte o limită a creşterii de 
viteză, n, în execuţia unui program de către P procesoare, în raport cu 
execuţia aceluiaşi program de către un singur procesor. 

Fie VW lungimea totală a programului, din care S lungimea de natură 
pur secvenţială. Creșterea de viteză n va fi dată de formula : 


timpul de calcul pentru un procesor _ N 
Lis timpul de calcul pentru P procesoare  S-+(N —8)/ P’ 


Trecind la limită se obţine: 


. N 
lim n = — 
P — 00 


Rezultă că, indiferent de numărul procesoarelor utilizate, creşterea de 
viteză este limitată de caracteristicile intrinseci ale programului. 


În abordarea performanţelor prelucrării paralele se pot evidenția două 
căi distincte. 

Prima cale presupune soluţionarea cu viteză mai mare a unei pro- 
bleme de dimensiuni fixe. Mărirea numărului de procesoare va conduce la. 
reducerea sarcinii atribuite unui procesor și la creșterea timpului necesar 
comunicaţiilor între procesoare. Astfel, va rezulta figura de merit „ereg- 


terea de viteză la dimensiune fixă”, care este guvernată de formula lui 
Amdahl. 


A doua cale consideră soluționarea unei probleme de dimensiune 
maximă, într-un interval dat de timp, prin atribuirea fiecărui procesor 
a unei sarcini fixe ; sarcina totală se va scala cu numărul procesoarelor.. 
Ca. rezultat se va obţine figura de merit „creșterea scalată de viteză”. În 
acest caz se presupune că fiecare procesor comunică numai cu vecinii săi 
cei mai apropiaţi, raportul timp de comunicaţii/timp de calcul fiind 
constant. Creşterea scalată de viteză nu mai este guvernată de formula, 
lui Amdahl, rezultatul fiind caracteristic multor aplicaţii practice. În spri- 
jinul celor arătate mai sus se va da exemplul soluționării unei ecuaţii cu 
derivate parţiale într-un domeniu acoperit cu o grilă cu N x N noduri, 
folosind un algoritm care actualizează nodurile grilei de la vecinii cei mai 
apropiaţi. 


În primul caz se consideră creșterea de viteză la dimensiune fixă. 
Timpul total de calcul este a. N?, unde a reprezintă intervalul de timp pentru 
calculul într-un nod. Timpul necesar schimbului de date între două noduri 
vecine ale grilei este egal cu b; comunicațiile se realizează în paralel. 
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Dacă problema se poate împărţi în mod egal între P procesoare, 
rezultă o creștere de viteză : 


ut A 
b-+a:X2/2 


Trecînd la limită se obţine : 


i a 
lim n = 
P = co 


Rezultatul este independent de P. 


În al doilea caz dimensiunea problemei se scalează cu numărul de 
procesoare : N? = 6. P, unde c este numărul de noduri atribuite unui 
procesor. Inlocuind în expresia lui n, de la primul caz, rezultă o creștere 
scalată de viteză, s, care este liniară cu P : 


STIRI AA 
1 + b/a-c 


Abordări recente ale grupului Sandia, care a folosit un calculator NOU BE/ 
10 (hipercub), cu 1024 procesoare, au condus la o creștere scalată de viteză 
de 400 de ori în raport cu sistemele uniprocesor. 


© Aspecte privind algoritmii paraleli, limbajele de programare paralelă 
și tehnicile de compilare a programelor paralele. După cum se ştie, proble- 
mele de bază ale calculului paralel se referă. la: elaborarea algoritmilor 
cu paralelism inerent (pornind de la clase de aplicaţii), proiectarea lim- 
bajelor de programare paralelă, stabilirea unor arhitecturi hardware şi a 
unor sisteme de operare adecvate. 


Eficiența sistemelor paralele este condiționată de o serie de factori: 


— identificarea unei probleme care posedă un paralelism intrinsec ; 

— elaborarea unui algoritm corespunzător ; 

— aplicarea/maparea algoritmului într-o structură hardware/soft- 
ware convenabilă, 


Pentru a ilustra diversele tehnici de programare paralelă se consideră 
problema calculului integralei definite a unei funcții de o singură variabilă. 
Spaţiul cuprins între reprezentarea grafică a funcției şi axa absciselor 
este acoperit cu un număr de dreptunghiuri. Suma suprafeţelor dreptun- 
ghiurilor, în funcţie de pasul de discretizare pe axa absciselor, aproxi- 
mează mai precis sau mai puțin precis, valoarea integralei definite. Să 

Se vor considera mai multe tehnici : calculul secvențial folosind un 
sistem uniprocesor ; calcul paralel pe sisteme muliiprocesor cu memorie par- 
tajată ; calcul paralel pe sisteme multiprocesor cu memorie distribuită (trans- 
fer de mesaje ) și calculul paralel cu sisteme multiprocesor folosind anticipă- 
rile (futures ). 
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e Programul pentru sistemul uniprocesor descompune suprafaţa în 
dreptunghiuri foarte mici, calculează aria fiecărui dreptunghi și în final 
adună ariile calculate. | 


e În varianta cu memorie partajată, se generează o serie de taskuri 
pentru a calcula, aria fiecărui dreptunghi şi a o aduna automat la suma 
curentă. Suma curentă este stocată ca o variabilă în memoria partajată ; 
cînd toate taskurile sînt terminate valoarea ei este returnată. Taskurile 
care calculează aria fiecărui dreptunghi sint asignate nodurilor proce- 
soare pe măsură ce termină taskurile anterioare. Atribuirile sînt realizate 
de către un generator de taskuri, care are aceeași funcție ca şi bucla în 
versiunea serială ce calculează şi sumează. în secvenţă ariile dreptunghiu- 
rilor. Generatorul de taskuri maximizează utilizarea procesorului, prin 
alocarea dinamică 'a taskurilor procesoarelor disponibile : ele reprezintă 
expresia directă şi succintă a paralelismului inerent în program. 


e În versiunea cu transferuri de mesaje, un procesor „părinte” trimite 
mesaje către toate celelalte procesoare din sistem, (procesoare copii”), 
dindu-le date pentru fiecare dreptunghi a cărui arie trebuie calculată. 
Cînd un procesor-copil a calculat aria unui dreptunghi, el trimite un 
mesaj, ce conţine rezultatul, înapoi către părinte, care adună acest re- 
zultat la suma curentă/parţială și apoi trimite procesorului-copil datele 
pentru calculul ariei unui nou dreptunghi. Versiunea cu transferuri de 
mesaje este mai complexă decît versiunile anterioare, deoarece programa- 
torul trebuie să gestioneze într-o manieră explicită paralelismul. Progra- 
matorul trebuie să aibă în vedere doi algoritmi : algoritmul care rulează, 
pe procesorul-părinte şi algoritmul care se execută pe procesorul-copil. 


9 Versiunea bazată pe anticipări (futures ), care reprezintă o nouă teh- 
nică pentru programarea. paralelă, pornește calculele şi primește locurile 
de păstrare a rezultatelor, ; în aceste locuri se plasează valorile reale, pe 
măsură ce acestea se calculează. Anticipările sint alocate pentru fiecare 
dreptunghi aflat sub curbă, iar procesoarele din sistem încep calculul valo- 
rilor adevărate pentru aceste anticipări. Odată ce o anticipare a fost cal- 
culată, ea este adunată la suma curentă. Cînd toate anticipările sînt 
alocate simultan, programul poate întirzia evaluarea rezultatului pînă la 
lansarea ultimului calcul. Astfel, anticipările care sint lansate mai întîi 
vor avea mai mult timp pentru calcul, înainte ca programul să facă suma 
rezultatelor returnate. Deoarece programul va aştepta mai puţin timp 
pentru ca valorile reale să fie plasate în Jocurile de păstrare, el va fi mult 
mai eficient. 


e Implementarea algoritmilor paraleli, rapizi şi eficienți, pe super- 
calculatoare necesită limbaje de nivel înalt, flexibile în specificarea diferitelor 
forme de paralelism şi eficiente în utilizarea lor pe diverse tipuri de calcu- 
latoare paralele. În acest sens se evidenţiază trei soluţii. 


Prima soluție constă n folosirea compilatoarelor vectorizante, care 
generează, cod paralel, plecînd de la programele scrise pentru prelucrarea 
serială. Astfel, sînt cunoscute compilatoarele vectorizante : CFF, pentru 
sistemele de tip Cray, şi KAP-205, pentru sistemul Cyber 205. Eficienţa 
acestei abordări este modestă. 
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A doua soluție pleacă de la extensia limbajelor curente Fortran, © 
etc., cu facilităţi capabile să suporte construcţii multitasking și concurente. 
Astfel, diferiţi algoritmi paraleli au fost descrişi în Fortran extins, pentru 
construcţii multitasking (Cray X-MP-multiprocesor) și în C extins, pentru 
construcţii concurente (IPSC-multicalculator). Eficiența acestei abordări 
este moderată. 


A treia soluție se bazează pe elaborarea unor noi limbaje capabile 
să permită programarea prelucrării paralele. Aceste noi limbaje, care 
suportă prelucrarea paralelă au la baza limbajul ALGOL (Ada, Linda, 
Pascal concurent, Modula 2, Occam), limbajul LISP paralel/limbaje 
logice (Multilisp, Prolog concurent), limbaje funcţionale paralele (Parafal). 

Pentru a specifica explicit tipurile de proceduri utilizate în diferitele 
moduri ale calculului paralel, în unele din noile limbaje se foloseşte o nouă 
construcție numită moleculă. 

Algoritmii paraleli şi supercalculatoarele suportă diverse moduri de 
calcul, in timp ce limbajele de programare suportă unul sau cel mult două 
asemenea moduri. 

Limbajele bazate pe ALGOL explorează un spectru larg, de la Ada 
iniţial proiectat pentru sistemele care operează secvențial (limbajul avînd 
însă şi facilităţi de prelucrare paralelă), pînă la Linda, special proiectat 
pentru prelucrarea paralelă (în care un program paralel se comportă spa- 
tial și temporal ca un „ansamblu neordonat de procese şi nu ca un graf 
de procese). 

Sistemul Linda constă din operatori care pot orienta oricare limbaj 
gazdă (Fortran sau C) într-un limbaj de programare paralelă. Ca limbaj 
autonom, el constă dintr-un nucleu pentru sincronizare în timpul execuţiei 
şi dintr-un compilator. Paralelismul este asigurat, atît sub forma unei 
partiţii de procese simultane, cît şi prin multiplicarea unui singur proces. 

LISP paralel este orientat pe prelucrări simbolice paralele, constituind 
primul candidat pentru aplicaţiile de inteligență artificială, cu accent pe 
operaţii recursive, pe operaţii cu arbori și liste. 

P;ogramareu paralelă funcțională are la bază metodologii care per- 
mit maparea programelor pe topologii de prelucrare paralelă, Sistemul 
multiprocesor este tratat ca un singur calculator autonom, în care este 
mapat un program şi nu ca un grup de procesoare independente, care efec- 
tuează comunicaţii complexe ce necesită, de asemenea, sincronizări com- 
plexe. 

Limbajele funcționale garantează faptul că un program va conduce 
la acelaşi rezultat, indiferent de ordinea în care a fost executat. În lim- 
bajele funcţionale paralelismul este implicit, fiind suportat de semantica 
dată. Limbajele funcționale reprezintă primii candidaţi pentru progra- 
marea maşinilor paralele. 


9 Tendinţe privind viitoarele supercalculatoare. 

Supercalculatoarele viitoare vor beneficia de noi tehnologii : GaAs, 
optice, neuroni artificiali, materiale supraconductoare, integrare pe scară 
ultralargă în 3D, împachetări şi interconexiuni extrem de dense. În prezent 
se înregistrează o serie de realizări : folosirea GaAs (Cray-3 și unele calcu- 
datoare RISC); interconexiuni optice, de tip „crossbar” şi reţele de’ 
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porţi electronooptice ; reţele neuronale pentru modelul ,conecționist” 
al calculului paralel (Mark III, bazat pe 8 procesoare M68010, care imple- 
mentează 8100 elemente virtuale de procesare, cu 417000 conexiuni între 
cle). Practic există posibilitatea de realizare a unor reţele cu peste 10% 
elemente de procesare și peste 100 milioane interconexiuni. În Tabelul P5 


Tabelul P3, caracteristici comparative ale calculatoarelor electronice, optice și neuronale 


Caracteristici Calc. Electronice Calc. Optice ; Calc. Neuronale 
Timp de comutație ı 10-8—10-11 s, 10-22—10-15 s, 10-10 s, electronice. 
in Si, GaAs, JJ în rețele de 10-13 s optice 
porţi optice. 10-3 s, biologice. 
Granularitate ; | Mare ; 1—100 Fină: paralelism Fină ; paralelism 
paralelismul | procesoare/sistem masiv masiv 
procesorului i 
Banda de comunicații 10—1000 Mbits/s 1—100 Gbit/s Foarte mare; comu- 


nicații paralele. 


În 


Integrare fizică 104—105 transzistori/|  102— 10% porţi pe o 102 neuroni electro- 


/pastilă. reţea optică nici pe o pastilă de Si 
comenzii ceas numeric asincronă fără întir- tă, cu autoorgani- : 
zieri ale ceasului zare 


102 W pe plachetă, la|  10-1 W pe reţea, la Este funcţie de teh- 

10 MHz 10 MHz. nologia de imple- 
mentare; electroni- 
că, optică. 


i 

| 
Complexitatea | Comandă sincronă cu) Comanda sincronă/ Comanda distribui- 
Puterea consumată | 


Fiabilitate ; | Dependente de Interferenţe Robustă datorită 


întreținere ! arhitectură și reduse ; costisitoare. cooperării 
tehnologie. 


se prezintă o serie de caracteristici ale calculatoarelor electronice, optice 
şi neuronale. De menţionat faptul că, prin granularitate se înţelege raportul 
între intervalul de timp necesar comunicației şi intervalul de timp necesar 
calculelor paralele în cadrul execuţiei unui program paralel pe un sistem 
multiprocesor. În cazul unei granularităţi grosiere, prelucrarea paralelă 
se efectuează pe segmente mari de program, independente, care comunică 
rar între ele (sute de comunicaţii/s între procesoarele individuale). Apli- 
caţiile cu granularitate fină consumă mai mult timp pentru comunicaţii 
şi sincronizări (milioane de comunicaţii/s). 


În ţările puternic industrializate se acordă o mare atentie cercetărilor 
în vederea realizării de supercalculatoare. În Japonia şi în ţările din Europa. 
de Vest au fost lansate programe de cercetare speciale, la nivel naţional. 
După cum se vede şi din Tabelul P6, în Japonia, în cadrul programulu> 
„High-Speed Computing”, în perioada 1982—1990, s-au cheltuit circa 
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140 milioane de dolari, în vederea atingerii unor performanţe de circa 
10 Gflops. În cadrul programului ESPRIT, în Europa de Vest, au fost 
lansate programele : Supernode I; II, în perioadele 1984—1988 şi 1988 — 
1992 (25 milioane de dolari şi respectiv — 30 milioane de dolari, pentru 


Tabelul P6 Programe naţionale sau interfaţări privind dezvoltarea unor noi superealculatoare 


Japonia Europa/ESPRIT 


Nume High-Speed Computing. Supernode 1; II Suprenum-ISIS 
Perioada Ian 1982— Mar. 1990 1984—1988 1988—1992 
. 1988—1992 
£fort financiar $140 mil. $ 25; 30 mil. $ 1,5 mil. faza O 
$ 40 mil. total 
Performanţe 10 Gflops 40— 1500 Milops 40—120 Gflops. 
i 0,2—10 Gflops 
Obiective curente Noi dispozitive (JJ, Prelucrare paralelă. 
HEMT) 


Sisteme dedicate pentru 
prelucrări de imagini : Arh- 
hitecturi paralele ; 
Algoritmi paraleli ; 
Limbaje paralele. 


Participanți Electrotechnical Thom EMI Germania.” 
Laboratory >: 'Telmat Franţa 
Hitachi INMOS 
Fujitsu RSRE 
NEC ARSIS 


Univ. of Grenoble 
Univ of Southamp- 
ton 


Metode pentru in- | Încorporate în eforturile Crearea unei noi corpo- 
traducerea în participanţilor pentru rea- | raţii industriale 
practică, lizarea de şupercalculatoa- 


re; arhitecturi specializate 
pentru necesităţi naţionale. 


a atinge performanţele de 1,5—10 Gflops) și Suprenum-ISIS, în perioada 
1988 —1992 (circa, 41,5 milioane de dolari, în vederea realizării unor super- 
calculatoare cu viteză de 40—120 Gilops). 


4 


* 
* * 


Traducerea, lucrării Calculatoare Paralele, ediţia a II-a, autori pro- 
fesorii Hockney R. W. şi Jesshope Č. R., constituie un eveniment editorial 
deosebit, care umple un mare gol în literatura tehnică de specialitate, în 
domeniul calculatoarelor, în ţara noastră. 

Prima ediție a cărţii Calculatoare Paralele, apărută în anul 1981, a 
fost folosită parţial, de către autorul acestor rînduri, ca material de refe- 
rință, în predarea cursului „Structura Sistemelor Numerice de Prelucrare 
a Datelor”, La Facultatea de Automatică și Calculatoare, din Institutul 
Politehnice Bucureşti, pentru studenţii direcției de aprofundare „Construe- 
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ţia calculatoarelor”. Ca suport de curs au mai fost folosite, printre altele, 
şi lucrările : 
1. Stone H., (editor) Introduction to Computer Architecture. First edition-1975. Second 
edition — 1980. Science Research Associates. 


2. Hwang K., Compuler Archilecture and Parallel Processing. 
Briggs F. Me Graw Hill Book Company, 1984. 

3. Stone H. High — Performance Computer Architecture. Addison — Wesley 
Publishing Company, 1987. 

4. Fernbach S. Supercompulers Class VI Systems. Hardware and Sofiware. North — 
Holland. 1986 

„NE Special Issue on Supercomputing IEEE Transactions on Computers. 
C. 36. No. 12. December 1987 

6.5» Special Issue on Mullicomputers. Computer. August 1988. 

ners Proceedings of International Conferences on Parallel Processing. 


. Computer Society Press. 
. Siewioreck D. (editor) Computer Structures : Principles) and Examples Me Graw Hilh 
Book Company. 1982. i 


[ze] 


De menționat faptul că lucrarea [2] reprezintă una dintre cele mai 
reușite lucrări în domeniu, oferind multe detalii de proiectare. 

De la publicarea lucrării Parallel Computers, ediţia a II-a, în 1988, 
domeniul supercalculatoarelor a continuat să se dezvolte într-un ritm 
susținut. Unele aspecte ale elementelor apărute după elaborarea lucrării 
au fost prezentate în POSTFAȚĂ. De asemenea, s-a căutat completarea 
referințelor bibliografice, pe cît a fost posibil. 


r Bibliografice.  Superealculatoare. 

1. Andre F., Verjus J. P. (editori). Hypercube and distributed computers. (Proccedings of the 
First European Workshoop, Rennes, France 4—6 Oct. 1989). North-Holland. 1989. 
ISBN 0—444—88086—0 

Conţinut : Algoritmi numerici : Ecuafii cu derivate parțiale ; Unelle și Medii (de dezvoltare) ; 
Algoritmi Fundamentali în Algebra Liniară ; Limbaje și sisteme de Operare ; Rețele Neu- 
ronale ; Algebra Liniară și Calcul Științific ; Reţele de Interconectare. 


Seria : „Special Topics în Supercomputing”. North — Holland, 


Editori : Rodrigue G., Fernbach S., Michael G. 


2. Dongarra J. J. (editor). Experimental Parallel Compuling Architectures. Volume 1. 1987 
North — Holland. ISBN 0—444—70234—2. 

3. Schonhauer W. (editor). Scientific Computing on Vector Compulers. Volume 2. 1987. North — 
Holland. ISBN 0—444—70288—1. 

4. te Riele H. J. J. van der Vorst H. A. (editori). Algorilhms and Applications on Vecior and 
Parallel Computers. Volume 3. 1987. North — Holland. ISBN 0—444—70322—3. 

5. Martin J. L. (editor). Performance Evaluation of Supercomputers. Volume 4. 1988. North — 
Holland. ISBN 0—444—'704485—5. 

conținut : Performanţe ; Măsurători şi Metrice ; Metode, Modele și Direcţii (de Cercetare) 


Seria : „„Advances in Parallel Computing”. North — Holland 
Editori : Joubert G. R., Peters F. J., Feilmeier M., Schendel U. 


6. van der Vorst H. A., van Dooren P. (editori). Parallel Algorithms for Numerical Lincar 
Algebra. North — Holland. 1989. 
Conţinul : Algoritmi pentru masive sistolice ; Sisteme cu transfer de mesaje; Algoritmi 
pentru sisteme paralele cu memorie partajată ; Proiectarea algoritmilor rapizi și imple- 
mentări pentru supercalculatoare vectoriale. 
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7. Joubert G. R., Evans D. J., Peters F. T. (editori). Parallel Computing '89. Volume 2. Nort — 
Holand. 1989. 


8. Consard M., Robert Y., Quinton P., Raynal M. (editori). Parallel & Distributed Algorithms. 
(Proceedings of the International Workshop., Chateau de Bonas, Gers, France, 3—6 
october 1988). North — Holland. 1989. ISBN 0—444—87367—8. 


Conţinut : Algoritmi Paraleli ; Sortare şi Căutare Paralelă; Algoritmi Distribuiţi ; Metode 
de paralelizare. 


9. Delhye J. L., Gelenbe E. (editori). High Performance Computing. (Proceesings of the Inter- 
national Symposium on High Performance Computing, Montpellier, France, 22—24 
March 1989). ISBN 0—444—88034—7. 


Conținut : Unelte și Algoritmi Numerici ; Arhitecturi Paralele ; Aplicaţii în DinamicaFluidelor ; 
Aplicaţii în Chimie ; Aplicaţii în Fizică ; Noi omenii de Aplicaţii ; Educaţia și Pregătirea 
(specialiştilor). 


10. Hasegawa T. Takagi H. Takahashi Y. (editori) Performance of Distributed and Parallel 
Systems. (Proceedings of the IFIP TC? WG7. International Seminar, Kyoto, japan , 
7—9 December 1988). Notrh— Holland. 1989. ISBN 0—444—87497—6. 


Conţinul : Sisteme Distribuite, ISDN, Multiprocesoare, Sisteme cu integrare. Sisteme cu 
cozi de așteptare. Reţele de cozi de așteptare. Reţele Perti, Protocoale pentru Acces 
Multiplu. Sisteme Software, Prelucrare Paralelă. Reţele de Interconectare. 


41. Winter S. Schumany H. (editori). Supercomputers : Technology and Applications (Proceedings 
of the Fourteenth EUROMICRO Symposium on Microprocessding and Microprogram- 
ming (EUROMICRO' 88) Zurich, Switzerland, 29 August — 1 September 1988). 


Conţinul. Microelectronică, Inginerie Software. Prelucrare Paralelă, Aplicaţii. Muzica pe 
calculator. 


12. Wright M. (editor). Aspecis of Compulalion on Asynchronous Parallel Processors. Proceedings 
of the IFIP WG2. 5 Wotrking Conference, Stanford, CA, USA, 22—26 August 1988). 
North — Holland. 1989. ISBN 0—444—87310—4. 


Conţinut : Aplicaţii Științifice Eficiente, Limbaje și Programe, Biblioteci Unelte şi Medii 
(de dezvoltare), Limbaje de proiectare, Sesiuni Deschise, Proiectare de Sistem, 


Reviste — Periodice 


13. Vichenevetschi R. Stepleman R. (editori). Applied Numerical Mathematics. North — Holland 
ISSN 0168 — 9274. 

14. Hertzberger L. O. Ward S. (editori). Future Generation systems. North— Holland. ISSN 
0167—739x 

15. Feilmeier M., Joubert G. R. Schendel U., Hiromoto R., Evans D. J., Hoshino T. editori. 
Parallel Computing. North — Holland. ISSN 0167—8191. 

16. Reiser M., Bux W. editori. Performance Evaluation. North— Holland. ISSN 0166—5361. 

17. * * * Computer Phisics Communications. North— Holland. ISSN 0010—4655. 

18. * * + Computer Physies Reports. North— Holland. ISSN 0167—7977. 

19. * = * Integration, The VLSI Journal. North— Holland. ISSN 0167—9260. 


20. Petrescu A. Structuri paralele sistolice larg integrate pentru solujionarea ecuaţiilor cu derivate 
parțiale. Lucrările Conferinţei SAII. 1987. Bucureşti. 

21. Petrescu A., Consideraţii preliminare privind proieciul unui sistem paralel de calcul. Lucrările 
Conferinţei INFOTECH. 1988. București. 

22. Petrescu A., (și colectiv) Coneciarea magistrală-magistrală a microsislemului Felix PC cu 
microsisteme MIND. Simpozionul de Microprocesoare, Microcalculatoare şi Aplicaţii. 
1989. IPB. Bucureşti. 

23. Petrescu A. Sisteme sisfolice de prelucrare a datelor. Lucrările  impozionului ,,Calculatoarele 
Electronice din Generaţia a Cincea”. Editura Academiei Romane. 1985. București. 
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Anexă 


Sintaxa ASN — O notație structurală în stil algebric. Se defineşte în continuare, pe baza 
tormei Backus Naur (BNF) așa cum este ea folosită în raportul ALGOL60 Backus et al 1960), 
sintaxa notaţiei structurale utilizate pentru arhitectura calculatoarelor. Parantezele unghiulare 
(<>) delimitează termeni metalingvistici, iar barele verticale (|) separă alternativele (se citeşte 


ca ;;sau”). Două puncte de două ori urmate de egal (:: = ) trebuie citit ca ,,poate îi”. 
A.1 Diverse 

<gol) : : = | . 

<cifră> : :=0|2{3/4|5[6[718!9 f , 

literă mică) : : = able ;d|ejt!slh[iliik]llm|niolplairis!tlulvlelx!y [2 | 

(pipeline) : : = pi (gol) 

(SI prefix) : : = K| M| G | T<gol> 

(intreg fără semn) : : = (cifră) : < întreg fără semn) (citră) 

(putere) : : = intreg fără semn) : (gol) | (literă mică) 

(multiplicator) : : = (literă mică) | (întreg fără semn) (SI prefix 

(întreg fără semn) (întreg fără semn} | (comentariul 

(factor) : : = (multiplicator) (putere) | (factor) « (factor) 

(comentariu) : : = (orice secvenţă de simboluri)) | (gol) 

(separator) : : = ; 

Caserţiune) : : = (definiţie)! (definiţie de cale) | (structură) 
Exemple 

(go) : : = 

Ceifră) : : = 3;9 

<literă mică) : :=c;z 

(pipeline) : : = ; p 

(întreg fără semn) : : = 34; 128 

<putere) : : = ;2;s 

(multiplicator) : :=n; 16;8 G;9,5 

Cfactor) : : = n * m; 64? ; n + 128+322 

(comentariu) : : = ; (ECL bipolar) 


A.2 Unităţi E 
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(simbol E) : :=B:Ch|D|E|F|[IO|P|U|s 

Cidentiticator E) : : = (simbol E) (pipeline) | (identificator EY (ciiră) 
(timp de lucru în ns): : = (multiplicator) | (comentariu) 

număr de biţi al operandului) : : = (multiplicator) 


: (număr de biţi al operandului), (multiplicator> | (comentariu) 
A è <timp de lucru în ns) . 
<unitate E): : = identificator E) o (comentariu 
(număr de biţi şi op.) 


Exemple 
(identificator Ey : : = E; F12 ; Bp46 
Ctimp de lucru în ns) :`: = t; (4 milisecunde) 
(număr de biţi ai operandului) : : = b; (4 octeți); 16, 32 


(unitate E) : : = E; F12 < (+); L (omega) 


A.3. Unităţi M 


(simbol M> : :=M|O 
(identificator M> : (= simbol M) (pipeline) | (identificator M) 


Ceitră) 
Ctimp de aeces în ns) : := (multiplicator) | (comentariu) 
(mumăr de cuvinte) : : = (multiplicator) + 


: (număr de cuvinte) (număr de cuvinte) | (comentariu) * 
- (biți accesaţi din cuvint) : : = (multiplicator) | (comentariu) 


(dimensiunea memoriei) : : = (număr de cuvinte) (biți accesaţi din cuvint) | (co- 
mentariuy i 
- ; 3 timp de acces în ns 
(unitate M) : ; = (identificator MY sH . > (comentariu) 
l (dimensiunea memoriei) 
Exeinple | 
(identificator M) : : = Mp; M1 ; M2 ; M3; 016 
Cfimp de acces în ns) : : = 100; (4 milisecunde) 
(număr de cuvinte): : = n+ ; (1, 2 sau 4 Mocteţi)e!: 
(biţi accesaţi din cuvint): = b; 32 
(dimensiunea memoriei : : = n+b ; n +32 ;; n+ 32; 2Ke8+64 


f 5 100 
(unitate M» ::=M ; 016 
5 n 


.32 ° M 2Ka8 (2716EPROM); Mge64+ 64 


A.4 Calculatoare 


(simbol de control) : : = I| Iv| C Cv i 
(identificator de control): :<simbol de control) (pipeline) | <identificator de control? 
Ccifră) f N 

(perioada ceasului în ns) :: = (maultiplicator) | (comentariu) 

(biții instrucţiunii) : : = (multiplicator) 

| :<biţii instrucţiunii) (multiplicator) | (comentariu) 

(număr de fluxuri) : : = (multiplicator) + : (comentariuy+ | (gol) 

(fluxuri de instrucţiuni) : : = (număr de fluxuri) (biții instrucţiunii) 

Ceonectivitate) : : = (multiplicator> — n n | (comentariu) 

(tipul controlului) : :=a|h|l|r| (comentariu) 
(eonectivitate) 


l 
(tipul controlului) gol) 
(timp ceas în ns) 


(fluxuri de instr. 


(elemente comandate) : : = [<structură>] 


{calculator : : = (identificator de control) (comentariu) 


(elemente comandate) 


Exemple 
Cidentificator de control) : : = I; Ivp3 ; Cvi2 
(elemente comandate): : = ;[64P]; [C1[64P], C2]; [10Fp—4M] 
(conectivitate) : : = (structura 2D hexagonală); c—nn ; 2—nn 
(tipul controlului) : :a;h;l;r; ; 

— 2—nn zx = 250 
calculator) : : = C1 [64:P] A 3 Cili6F x 17M]; C j 


Ivp (10Fp — 4M); Iv 12  ; 150«64(HEP) 
P16,32 


A.S. Căi de dale 


(identificator de cale): : = = HCintreg tără semn) (comentariu) | (comentariu) 

{timp în ns pentru un camile = (multiplicator) | (comentariuy 

(biţi de date): : = (multiplicator) ] (comentariu) 

(biţi de adresă) : : = (multiplicator) | (comentariu) 

(număr de căi) : : = + emultiplicator) (comentariu) 

(dimensiunea căii) : : = (număr de căi) * ((biţi de date) + (biţi de adresă} | ec de 


căi) * (biţi de date) : (biţi de date) | (biţi de date) | (biţi de adresă) 
(timp de cuvint în ms) 
(magistrală de date): : = ————————— | (magistrală de date > — 
(dimensionea căii) 
| — < magistrală de date») ` 
A Ctimp pe cuvint in ns) i 
(conexiune in cruce): : = aiaa ai | Ceonexiune în cruce).x 
nea căii 
| x (conexiune în eruce) 
(conexiune) : : = (magistrală de date) | (magistrală de date) (identificator de cale) (magis- 
a de ate) | conexiune în cruce) | (conexiune în cruce) (identificator 'de cale) 
conexiune in cruce) 
(nici o conexiune) : : = | 


(simplex la stinga) : : = ((conexiune) 
(simplex la dreapta) : : = (conexiune) 
(duplex) : : = (simplex la stinga) >! (simplex la stinga), (simplex la dreapta) 
(half duplex) : : = (simplex la stinga) / (simplex la dreapta) 
(cale de date) : : = (conexiune) | (simplex la stinga) | aaa la dreapta) | (duplex)| 
half duplex) | “nică o conexiune) 
(definiţia căii): : = FIR RAIN de cale) = (structură) 
Exemple T 
<identificator de cale): := H ; H3 (pereche răsucită) 
(timp în ns pentru un cuvint) : : = t; 125; (1ms) 
(biţi de date): : = 64; n 
(biţi de adresă):: = 16; a 
(număr de căi):: =4;n 
(mărimea unei cai) : : = 4* ((64+16 A 4*64; 64; 64+16 
1 
(magistrală de date) i= ETCEN 
(conexiune în cruce): : =X; XXX 
(conexiune) : : = —H3 (pereche răsucită) — — — ; x x (rețea Banyan) xx; —H3— 
(nici o conexiune) : : = |] 
(simplex la stinga) : : = «===; (x xX; (ia 
(simplex la dreapta) : : i = mmmh XXY; zg’ x) 
duplex) : yea >: m mem; pen 
16 32 64 
<half duplex) : EA p X; me H2— —]— H3 ~—> 
(cale de date) : = £ pg in d 
(definire căi) : : = H3 =, oa) 
A.6 Structuri 
gunitate) : : = <E unitate) | <M unitate) | Cealeulator) | (literă mică) 
€primar) : : = unitate) | (structură) Ceonectivitate) 


(pipeline) 
| «structură paralelă) (pipeline) 
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(secundar) : : = (primar) | factor) (primar) | (factor) (primar) | (gol) 
(structură) : : = (secundar) | (structură) (cale de date) (secundar) 
listă concurentă) ; : = (structură) | (listă concurentă) | (structură) 
Clistă secvenţială) : = (structură) | (listă secvenţială) | (structură) 
listă) : : = Clistă concurentă) | (listă secvenţială) 


(structură paralelă : : = (Cata) conectivitate) 
(definiţie) : : = (secundar) = (structură) 


Exemple 


Cunitate) : : = E ; Mg464; C[64P) ; a 


(primar) : : = {—E—M-—a)p ; {—E1—, E2}; (E1/E2/E3); IO 

(secundar) :: = 16*322 P; {3F, 2P} 

<structura) : : = —E—M-—a; {E—{—M1—M2—,—}}— — —M3}—a; 
(3225) 1—nn y 

(listă concurență) : : = I, E, M 

(listă secvenţială) : : = 3E1/E2/E3 


<structură paralelă) : : = {I, E, M}; (3E1/E2/E3); (—E—, | M—, — 
Cdetiniţie) : : = 3E1 = (E(+), EG), E(+)}; E2={F(*)/F (+)/B} ; 


— 2—nn 1 
C= 45] MM MN 13) 


iKe 1M*64 
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Procesoare partea paralelă „99 
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Programare orientată obiect f 307 
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Reţea 3 - vecinătatea proximă nearest-neighbour 227 
Reţea Banyan Banyan network 49 
Reţea FLIP 35, 60 
Rejea PSNN 40, 229 
Reţea R 234 
Reţea RC 471 
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Reţea de conectare generalizată generalised 220 
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Transputer performanța 
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Wilson K. G. 
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